PDF in Markdown umwandeln und LLM-Tokens sparen: der MarkItDown-Guide

Ein PDF direkt an Claude oder ein beliebiges LLM zu schicken verbrennt still und leise Tokens: Jede Seite wird zusätzlich in ein Bild verwandelt. Wandle die Datei zuerst mit MarkItDown in Markdown um, dem kostenlosen Open-Source-Tool von Microsoft, und senke deine Token-Rechnung um bis zu 80 %. Kompletter Guide mit CLI, Python und MCP-Server.

Du ziehst ein 20-seitiges PDF in Claude, stellst eine Frage und die Antwort kommt einwandfrei zurück. Was du nicht siehst, ist die Rechnung. Noch bevor deine Frage überhaupt gelesen wird, kann dieses Dokument zehntausende Tokens verschlingen. Mach das ein paarmal am Tag im Team, und du zahlst echtes Geld dafür, rohe PDFs in ein Modell zu kippen, das sich mit sauberem Text genauso zufriedengegeben hätte.

Es gibt eine kostenlose Lösung, und sie liegt die ganze Zeit offen zutage. Wandle die Datei zuerst in Markdown um. Dieser Guide erklärt genau, warum PDFs so teuer sind, wie viel du sparst und wie du die Umwandlung mit einem einzigen Befehl erledigst, mit MarkItDown, dem Open-Source-Konverter von Microsoft.

Warum ein PDF so viele Tokens kostet

Hier ist der Teil, den dir niemand sagt. Wenn du ein PDF an ein LLM übergibst, wird es nicht so gelesen, wie du es liest. Laut Anthropics eigener PDF-Dokumentation macht das System mit jeder einzelnen Seite zwei Dinge:

  1. Es extrahiert den Text der Seite.
  2. Es wandelt die gesamte Seite in ein Bild um und schickt dieses Bild zusätzlich zum Text mit.

Dieser zweite Schritt ist das stille Token-Loch. Das Modell liest nicht nur Wörter, es schaut sich auch ein Foto jeder Seite an, um Diagramme, Tabellen und Layout verstehen zu können. Du bezahlst beides.

Anthropics Zahlen machen die Kosten greifbar. Der extrahierte Text allein schlägt je nach Dichte mit 1.500 bis 3.000 Tokens pro Seite zu Buche. Obendrauf kommt für jede Seite noch der Preis eines Bildes. Ein vielsagender Datenpunkt aus der Amazon-Bedrock-Integration: Der vollständige visuelle PDF-Modus verbraucht etwa 7.000 Tokens für ein 3-seitiges PDF, während die reine Textextraktion derselben drei Seiten etwa 1.000 Tokens verbraucht. Das ist ein Faktor 7, und er stammt vollständig von den Bildern Seite für Seite.

Rechne das auf ein echtes Dokument hoch. Ein dichter 20-seitiger Bericht kann irgendwo zwischen 40.000 und 70.000 Tokens landen, sobald jede Seite in ein Bild gerastert wurde. Du hast noch gar nichts gefragt. Du hast nur die Datei geöffnet.

Balkendiagramm, das die Token-Kosten eines 20-seitigen Dokuments als PDF mit demselben Dokument in Markdown vergleicht. Das PDF stapelt die Tokens des extrahierten Texts plus die Bild-Tokens pro Seite zu rund 48.000 Tokens, während die Markdown-Version nur Text-Tokens für rund 11.000 Tokens nutzt, also etwa 77 Prozent weniger.

Der orange-rote Block ist purer Mehraufwand: ein Bild für jede Seite, egal ob auf der Seite irgendetwas Sehenswertes zu sehen ist oder nicht.

Die Lösung: stattdessen sauberes Markdown füttern

Die meisten Dokumente müssen nicht gesehen werden. Ein Vertrag, eine Spezifikation, ein Forschungspapier, ein Foliensatz voller Stichpunkte: All das ist Text, der ein Layout trägt. Wenn du das Layout entfernst und die Struktur behältst, verliert das Modell nichts, was es tatsächlich gebraucht hätte.

Genau das gibt dir Markdown. Es ist ungefähr so nah am reinen Text, wie es ein Format nur sein kann, und codiert trotzdem die Struktur, auf die es ankommt: Überschriften, Listen, Tabellen, Links, Codeblöcke, Fett und Betonung. Gängige LLMs sind auf enormen Mengen Markdown trainiert, also parsen sie es nativ und mühelos. Microsoft, das MarkItDown entwickelt, formuliert es schlicht: Markdown sei "extrem nah am reinen Text, mit minimaler Auszeichnung oder Formatierung, bietet aber trotzdem eine Möglichkeit, die wichtige Struktur eines Dokuments abzubilden".

Wandle dein PDF in Markdown um, und du wirst die Bilder Seite für Seite komplett los. Keine gerasterten Seiten mehr, kein Vision-Mehraufwand, nur der strukturierte Text, den das Modell ohnehin gelesen hätte. Daher kommen die Einsparungen.

Lerne MarkItDown kennen, Microsofts kostenlosen Konverter

MarkItDown ist ein leichtgewichtiges Python-Tool von Microsoft, veröffentlicht unter der freizügigen MIT-Lizenz und eines der meistgestarten Entwickler-Tools auf GitHub, mit mehr als 135.000 Sternen. Seine einzige Aufgabe: chaotische Dateien aus der echten Welt in sauberes Markdown zu verwandeln, das ein LLM günstig lesen kann.

Es ist nicht nur ein PDF-Tool. Es konvertiert eine lange Liste an Formaten:

  • PDF-Dokumente
  • Word (.docx)
  • Excel (.xlsx, .xls)
  • PowerPoint (.pptx)
  • Bilder, mit EXIF-Metadaten und OCR für Text im Bild
  • Audio, mit Metadaten und Sprachtranskription
  • HTML-Seiten
  • CSV-, JSON- und XML-Daten
  • ZIP-Archive (es durchläuft den Inhalt)
  • YouTube-URLs (es holt das Transkript)
  • EPub-E-Books
  • Outlook-Nachrichten (.msg)

Ein Tool, ein Ausgabeformat, für fast alles, was du sonst als schweres Binärformat an ein Modell geworfen hättest.

MarkItDown in 30 Sekunden installieren

Es ist ein ganz normales Python-Paket. Um alles zu bekommen, installiere das Extra all:

pip install 'markitdown[all]'

Wenn dir nur ein paar Formate wichtig sind und du eine schlankere Installation willst, frag nur diese Extras an:

pip install 'markitdown[pdf, docx, pptx]'

Zu den verfügbaren Optionen gehören unter anderem [all], [pdf], [docx], [pptx], [xlsx], [xls], [outlook], [audio-transcription] und [youtube-transcription].

Ein PDF über die Kommandozeile in Markdown umwandeln

Der schnellste Weg ist die CLI. Richte sie auf eine Datei und schick die Ausgabe wohin du willst:

markitdown report.pdf -o report.md

Oder nutze eine einfache Umleitung, die dasselbe tut:

markitdown report.pdf > report.md

Du kannst eine Datei auch direkt durchpipen:

cat report.pdf | markitdown

Das ist der ganze Workflow. Du hast jetzt eine report.md, die du an jedes beliebige Modell übergeben, in ein Repository legen oder in einen Chat einfügen kannst, und das zu einem Bruchteil der ursprünglichen Kosten.

Workflow-Diagramm: Quelldateien wie PDF, DOCX, XLSX und PPTX fließen in MarkItDown, das eine einzige saubere Markdown-Datei ausgibt, die dann an ein großes Sprachmodell oder einen Coding-Agenten gegeben wird. Ein Token-Marker wandert den Pfad entlang und zeigt, wie das Dokument durch die Pipeline läuft.

Schwere Datei rein, agentenfertiges Markdown raus, ein einziger Befehl dazwischen.

In Python umwandeln (und einen ganzen Ordner stapeln)

Wenn du das in eine Pipeline verdrahtest, ist die Python-API genauso kurz:

from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False)
result = md.convert("report.pdf")
print(result.text_content)

result.text_content ist dein Markdown-String, bereit zum Schreiben auf die Festplatte oder zum Füttern eines Modells. Um einen ganzen Ordner voller Dokumente in einem Durchgang umzuwandeln, iterier darüber:

from pathlib import Path
from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False)
for src in Path("docs").glob("*.pdf"):
    out = src.with_suffix(".md")
    out.write_text(md.convert(str(src)).text_content, encoding="utf-8")

Lass das einmal laufen, und aus einem Verzeichnis teurer PDFs wird ein Verzeichnis günstigen, strukturierten Markdowns, das jeder Agent bei jedem Zug lesen kann, ohne die Vision-Steuer erneut zu zahlen.

Wie viel sparst du wirklich?

Die ehrliche Antwort: Es hängt vom Dokument ab, aber der Gewinn ist groß und beständig. So sieht es bei einer typischen, textlastigen Datei aus.

PDF ans Modell geschicktIn Markdown umgewandelt
Extrahierter Textjaja
Ein Bild pro Seiteja, jede Seitenein
Vision-Mehraufwandvollkeiner
3-seitiges Dokument (Bedrock-Zahl)~7.000 Tokens~1.000 Tokens
20-seitiges Dokument (Schätzung)40.000 bis 70.000 Tokens10.000 bis 15.000 Tokens

Bei einem Dokument, dessen Wert in seinen Worten steckt, senkt die Umwandlung in Markdown die Token-Kosten regelmäßig um deutlich mehr als die Hälfte, oft um 80 % oder mehr. Die Einsparungen sind keine Magie: Du zahlst einfach nicht mehr dafür, ein Foto jeder Seite zu schicken, wenn das Modell nur den Text gebraucht hat.

Markdown ist natürlich nicht buchstäblich kostenlos. Der extrahierte Text kostet weiterhin Tokens. Aber diese Textkosten sind der Boden, den du ohnehin immer gezahlt hättest. Was du entfernst, ist der Stapel an Bildern Seite für Seite, der obendrauf liegt.

Wann du das PDF behalten solltest (nicht überoptimieren)

Umwandeln ist die richtige Standardeinstellung, keine universelle Regel. Behalte das Original-PDF, wenn es genau auf das visuelle Layout ankommt:

  • Diagramme und Grafiken, die das Modell wirklich lesen muss. Wenn die Bedeutung in einem Balkendiagramm steckt, leistet das Bild echte Arbeit.
  • Eingescannte Dokumente, die Bilder von Text sind. MarkItDown kann sie per OCR verarbeiten, aber wenn die Erkennung wackelig ist, liest die eigene Vision des Modells die Seite manchmal zuverlässiger.
  • Komplexe visuelle Tabellen oder Formulare, bei denen Position und Ausrichtung eine Bedeutung tragen, die in Markdown verloren geht.
  • Infografiken und designlastige Seiten, bei denen das Layout der Inhalt ist.

Für alles andere, also die meisten Dokumente, gewinnt Markdown.

Entscheidungsdiagramm: Frag dich, ob du das visuelle Layout des Dokuments wirklich brauchst, etwa Diagramme, eingescannte Seiten oder komplexe visuelle Tabellen. Falls nein, wandle es in Markdown um, um Tokens zu sparen, der empfohlene Weg. Falls ja, behalte das PDF, damit die Vision des Modells die Seitenbilder direkt lesen kann.

Die Frage ist nie "PDF oder Markdown" im Abstrakten. Sie lautet: "Muss das Modell diese Seite sehen, oder sie nur lesen?"

Über PDFs hinaus: Word, Excel, PowerPoint und sogar YouTube

Derselbe Einzeiler funktioniert beim Rest deines Dokumentenstapels. Ein Word-Dokument, eine Tabelle, ein Foliensatz, eine Webseite und sogar das Transkript eines YouTube-Videos schrumpfen alle auf dieselbe Weise zu sauberem Markdown:

markitdown deck.pptx -o deck.md
markitdown budget.xlsx -o budget.md
markitdown https://www.youtube.com/watch?v=VIDEO_ID -o transcript.md

Wenn dein Workflow darin besteht, regelmäßig Kontext aus Office-Dateien oder dem Web zu ziehen und ihn einem Modell zu übergeben, ist es eine der günstigsten und wirkungsvollsten Gewohnheiten, die du dir aneignen kannst, alles zuerst auf Markdown zu standardisieren.

Hänge es mit dem MarkItDown-MCP-Server an deine Coding-Agenten

Wenn du mit Coding-Agenten arbeitest, wird es noch besser. MarkItDown liefert einen offiziellen MCP-Server (Model Context Protocol), sodass dein Agent Dateien selbst umwandeln kann, mitten in der Aufgabe, ohne dass du etwas von Hand ausführst.

Installiere ihn und starte ihn über stdio:

pip install markitdown-mcp
markitdown-mcp

Der Server stellt ein einziges Tool bereit, convert_to_markdown(uri), wobei die uri jede http:-, https:-, file:- oder data:-URI sein kann. Verdrahte ihn einmal mit deinem Agenten, und er kann ein PDF, eine Tabelle oder eine Webseite holen und auf Abruf in Markdown verwandeln, und zahlt dabei die ganze Zeit Text-Token-Preise statt Vision-Preise.

Genau das ist die Art von Sache, die sich aufsummiert, wenn du mehr als einen Agenten laufen lässt. In AgentsRoom, dem Multi-Agenten-Cockpit, konfigurierst du einen MCP-Server einmal, und jeder Agent im Raum erbt ihn. Wandle deine Referenzdokumente in .md um, committe sie ins Repository, und jeder Agent liest bei jedem Zug sauberen, strukturierten Text, statt dasselbe PDF immer wieder neu in Bilder zu rastern. Dieselbe Disziplin, die eine einzelne Session schlank hält, hält eine ganze Flotte bezahlbar, was zählt, wenn du Coding-Agenten parallel laufen lässt und jeder von ihnen deinen geteilten Kontext liest.

Es passt auch natürlich zu der Art, wie gute Agenten-Setups ihren Kontext ohnehin schon verwalten. Wenn du eine AGENTS.md-Kontextdatei pflegst und sie auf leichtgewichtige .md-Referenzen statt auf rohe PDFs zeigen lässt, bleibt das Kontextfenster schlank, was, wie wir im Kanarienvogel-Trick zum Aufspüren von Kontext-Drift gezeigt haben, die halbe Miete in jeder langen Session ist.

Das Fazit

Rohe PDFs an ein LLM zu füttern ist eine Steuer, die du gezahlt hast, ohne es zu bemerken, weil jede Seite klammheimlich in ein Bild verwandelt wird. MarkItDown entfernt diese Steuer kostenlos: Ein Befehl verwandelt fast jede Datei in sauberes Markdown, du wirst bis zu 80 % der Token-Kosten los, und das Modell antwortet genauso gut, oft sogar besser, weil es Struktur liest, statt auf Seitenfotos zu schielen.

Zuerst umwandeln, dann fragen. Deine Token-Rechnung und dein Kontextfenster werden es dir beide danken.

Bereit, das über ein ganzes Team von Agenten laufen zu lassen statt über ein einzelnes Terminal? Lade AgentsRoom herunter, sieh in der Kompatibilitätsmatrix der Anbieter, was jeder Agent unterstützt, und lies mehr über die Multi-Provider-Unterstützung.

AgentsRoom herunterladen

Führe deine Claude-Agenten auf all deinen Projekten aus, von einem einzigen Fenster.

KostenlosAgentsRoom herunterladen

Companion-App: Agenten auch unterwegs im Blick behalten

Nutzen Sie Claude, Codex, Gemini CLI oder einen anderen AI-Anbieter.

Erweiterung installieren
Chrome Web Store

Bugs und Wünsche direkt in dein öffentliches Backlog schicken.

Ein Blick auf AgentsRoom in Aktion.

Multi-Projekte
Multi-Provider
Multi-Agenten
Live-Status
Diff & Commit
Mobile App
Live-Vorschau
Agent-Teams
Browser-Tests
Backlog-getriebene Entwicklung
Prompt-Bibliothek
Skills-Bibliothek
Alle Funktionen ansehen