Ratgeber · PDF zu Word 2026

OCR: Wie aus einem gescannten PDF wieder Text wird

Wie optische Zeichenerkennung aus Pixelbildern Text rekonstruiert, welche Rolle Sprachmodelle und Scan-Qualität spielen und warum OCR im Browser mit tesseract.js funktioniert, aber nie hundertprozentig.

Von Jan-Tristan Rudat

Redakteur pdf-word.de

Veröffentlicht

23. April 2026

Aktualisiert: 23. Mai 2026

9 min Lesezeit Veröffentlicht 23. April 2026

Hinweis: Redaktioneller Inhalt. Mathematischer Rechner ohne Beratungsanspruch.

Aus Pixeln werden wieder Buchstaben

Ein gescanntes PDF ist für den Computer zunächst nur ein Bild aus farbigen Punkten. Es enthält keinen Text, den man markieren oder durchsuchen könnte. Damit aus einem solchen Scan wieder bearbeitbarer Text wird, braucht es OCR, die optische Zeichenerkennung (Optical Character Recognition). Dieser Ratgeber erklärt, wie das Verfahren arbeitet, welche Sprachen unterstützt werden, wie genau es ist und wo seine Grenzen liegen.

Wie OCR im Grundsatz funktioniert

OCR läuft in mehreren Stufen ab. Vereinfacht durchläuft das Programm folgende Schritte:

Vorverarbeitung: Das Bild wird begradigt, der Kontrast erhöht und Rauschen entfernt. Ein gerader, kontrastreicher Scan liefert deutlich bessere Ergebnisse.
Segmentierung: Das Programm erkennt, wo Textblöcke, Zeilen, Wörter und einzelne Zeichen liegen.
Erkennung: Jede Zeichenform wird mit gelernten Mustern verglichen und dem wahrscheinlichsten Buchstaben zugeordnet.
Nachbearbeitung: Ein Sprachmodell prüft, ob die erkannten Wörter sinnvoll sind, und korrigiert offensichtliche Fehler anhand des Kontexts.

Der letzte Schritt ist der Grund, warum die OCR-Sprache wichtig ist. Ein deutsches Sprachmodell weiß, dass "Strasse" wahrscheinlich "Straße" heißen soll, und kann Umlaute richtig einordnen.

OCR im Browser mit tesseract.js

Dieser Konverter nutzt tesseract.js, eine JavaScript-Variante der bekannten Open-Source-Engine Tesseract. Das Besondere: Die Erkennung läuft vollständig im Browser auf Ihrem Gerät. Der Scan wird nicht auf einen Server geladen, sondern lokal verarbeitet. Das ist ein klarer Datenschutz-Vorteil, wie der Ratgeber Datenschutz client-seitig ausführt.

Der Ablauf: pdfjs-dist rendert jede Scan-Seite als Bild, tesseract.js erkennt darin den Text, und die docx-Bibliothek baut daraus die Word-Datei. Weil alles lokal läuft, hängt die Geschwindigkeit von Ihrem Gerät ab.

Unterstützte Sprachen

Der Konverter setzt auf Sprachpakete für Deutsch und Englisch, inklusive der deutschen Umlaute und des ß. Für gemischtsprachige Dokumente lassen sich beide kombinieren.

Dokument	Empfohlene Sprache
Deutscher Brief, Vertrag	Deutsch
Englisches Dokument	Englisch
Gemischter Text	Deutsch + Englisch

Die Wahl der Sprache ist nicht nebensächlich. Erkennt man ein deutsches Dokument mit englischem Sprachmodell, fehlen die Umlaute im Wörterbuch und ä, ö, ü werden häufiger falsch interpretiert.

Wie genau ist OCR?

Die Genauigkeit hängt stark von der Vorlage ab. Unter guten Bedingungen ist sie erstaunlich hoch, unter schlechten enttäuschend. Die wichtigsten Faktoren:

Faktor	Gut für OCR	Schlecht für OCR
Auflösung	300 dpi oder mehr	unter 150 dpi
Ausrichtung	gerade	schief, verdreht
Kontrast	dunkle Schrift, heller Grund	grau in grau, Flecken
Schrift	klare Druckschrift	Handschrift, Zierschrift

Bei einem sauberen Scan mit klarer Druckschrift liegt die Trefferquote oft über 98 Prozent. Bei schlechten Vorlagen kann sie auf unter 80 Prozent fallen, was viele Korrekturen nach sich zieht.

Die Grenzen der Texterkennung

OCR ist ein leistungsfähiges, aber kein perfektes Verfahren. Einige Dinge bleiben schwierig oder unmöglich:

Handschrift: normale OCR ist auf gedruckte Schrift trainiert, Handschrift wird kaum erkannt.
Verwechselbare Zeichen: 0 und O, 1 und l, rn und m werden gelegentlich vertauscht.
Layout: OCR erkennt Buchstaben, nicht zwingend die richtige Lesereihenfolge bei Spalten.
Tabellen: Werte werden erkannt, aber die Zuordnung zu Zellen ist heikel, siehe Ratgeber Tabellen aus PDF extrahieren.
Formeln und Sonderzeichen: mathematische Notation wird häufig falsch wiedergegeben.

Deshalb gilt: Nach jeder OCR ist eine Nachkontrolle ratsam, besonders bei Zahlen, Beträgen, Eigennamen und allem, was rechtlich oder finanziell wichtig ist.

Warum OCR Zeit und Ressourcen braucht

Im Gegensatz zum Auslesen einer vorhandenen Textebene muss OCR jede Seite Pixel für Pixel analysieren. Das ist rechenintensiv. Bei einem mehrseitigen, hochauflösenden Dokument kann das spürbar dauern und den Arbeitsspeicher belasten. Weil hier alles lokal im Browser läuft, hängt die Dauer direkt von der Leistung Ihres Geräts ab. Auf einem Smartphone ist Geduld gefragt, mehr dazu im Ratgeber PDF zu Word am Handy.

So holen Sie das Beste aus OCR heraus

Scannen Sie mit mindestens 300 dpi.
Richten Sie die Seiten gerade aus, bevor Sie scannen.
Sorgen Sie für guten Kontrast und vermeiden Sie Schatten.
Wählen Sie die passende OCR-Sprache.
Lesen Sie das Ergebnis gegen, vor allem Zahlen und Namen.

Eine kurze Geschichte der Texterkennung

OCR ist keine neue Erfindung. Erste Lesemaschinen gab es schon in den 1950er Jahren, etwa zum automatischen Sortieren von Post. Lange Zeit erkannten diese Systeme nur ganz bestimmte, dafür entworfene Schriften. Erst mit leistungsfähigeren Computern und später mit Methoden des maschinellen Lernens wurde die Erkennung beliebiger Druckschriften praktikabel. Die Engine Tesseract, auf der tesseract.js aufbaut, stammt ursprünglich aus den 1980er Jahren, wurde später quelloffen und gehört heute zu den am weitesten verbreiteten OCR-Systemen. Dass diese Technik inzwischen direkt im Browser läuft, ist erst durch WebAssembly möglich geworden, das rechenintensiven Code im Browser nahezu in nativer Geschwindigkeit ausführt.

Was die Erkennung erschwert

Hindernis	Auswirkung
Niedrige Auflösung	Buchstaben verschwimmen, Verwechslungen
Schräglage	Zeilen werden falsch segmentiert
Durchscheinendes Papier	Rückseitentext stört die Erkennung
Mehrspaltiger Satz	falsche Lesereihenfolge
Ungewöhnliche Schrift	Muster passen nicht zum Modell

Viele dieser Hindernisse lassen sich durch sorgfältiges Scannen vermeiden. Eine gerade aufgelegte Seite mit hoher Auflösung und gutem Kontrast ist die halbe Miete.

Zahlen und Beträge besonders prüfen

Bei OCR ist nicht jeder Fehler gleich schwer. Ein falsch erkannter Buchstabe in einem Wort fällt beim Lesen meist auf und der Sinn bleibt erhalten. Eine falsch erkannte Ziffer in einem Betrag dagegen ist tückisch, weil 1234 statt 1284 völlig plausibel aussieht. Das Sprachmodell hilft bei Wörtern, nicht aber bei Zahlen, denn jede Ziffernfolge ist grundsätzlich möglich. Deshalb gilt: Bei Rechnungen, Kontoauszügen und allen Dokumenten mit Zahlen sollte man jeden Wert gegen das Original abgleichen.

Fazit

OCR macht aus den Pixeln eines Scans wieder bearbeitbaren Text. Mit tesseract.js und WebAssembly läuft das vollständig im Browser, ohne dass die Datei das Gerät verlässt. Die Genauigkeit ist bei sauberen Vorlagen sehr hoch, sinkt aber bei schlechten Scans deutlich, und Handschrift bleibt eine echte Grenze. Besonders Zahlen verlangen eine Nachkontrolle, weil das Sprachmodell hier nicht helfen kann. Wer die Scan-Qualität beachtet und das Ergebnis gegenliest, bekommt aus einem gescannten PDF ein brauchbares Word-Dokument. Ob Ihre PDF überhaupt OCR braucht, klärt der Ratgeber Text-PDF vs. gescanntes PDF.

Häufige Fragen

Was Leserinnen und Leser sonst noch fragen

Was bedeutet OCR?

OCR steht für Optical Character Recognition, auf Deutsch optische Zeichenerkennung. Die Technik analysiert ein Bild, findet Buchstabenformen und ordnet ihnen die passenden Zeichen zu. So wird aus einem Scan, der nur aus Pixeln besteht, wieder bearbeitbarer Text.

Welche Sprachen erkennt die OCR hier?

Der Konverter nutzt tesseract.js mit Sprachpaketen für Deutsch und Englisch, inklusive deutscher Umlaute und ß. Für gemischte Dokumente lassen sich beide Sprachen kombinieren. Andere Sprachen mit lateinischer Schrift werden teils mit erkannt, aber mit geringerer Genauigkeit.

Wie genau ist die Texterkennung?

Bei einem sauberen Scan mit 300 dpi, gerader Ausrichtung und klarer Druckschrift liegt die Trefferquote oft über 98 Prozent. Bei schiefen, kontrastarmen oder niedrig aufgelösten Scans, Handschrift oder ungewöhnlichen Schriften sinkt sie deutlich. Eine Nachkontrolle des Texts ist immer ratsam.

Warum dauert OCR länger als eine normale Umwandlung?

Weil jede Seite als Bild gerendert und Pixel für Pixel analysiert werden muss. Das ist rechenintensiv und läuft hier vollständig im Browser auf Ihrem Gerät. Mehrseitige oder hochaufgelöste Dokumente brauchen daher spürbar mehr Zeit und Arbeitsspeicher als ein reines Text-PDF.

Über den Autor

Jan-Tristan Rudat

Redakteur pdf-word.de

Jan-Tristan Rudat arbeitet als Redakteur bei der AKARA Solutions GmbH und verantwortet die journalistische Aufbereitung der Beispiel- und Praxis-Inhalte. Er übersetzt die technische Konvertierung in nachvollziehbare Alltagsfälle: ein gescanntes Vertrags-PDF per OCR wieder editierbar machen, eine PDF-Rechnung zur Weiterbearbeitung nach Word holen, Zitate aus einem wissenschaftlichen PDF-Paper sauber herauskopieren oder ein Behörden-Formular ausfüllbar machen. Recherche- und Anwenderbezug stehen im Vordergrund. Er/Sie besitzt KEINE rechtliche, steuerliche oder zertifizierte finanzplanerische Qualifikation. Die Inhalte sind redaktionelle Aufbereitung öffentlicher Quellen und ersetzen keine Beratung.

Praxis-BeispieleVerträge & RechnungenStudium & WissenschaftBehörden-FormulareDokument-Layout

OCR: Wie aus einem gescannten PDF wieder Text wird

Aus Pixeln werden wieder Buchstaben

Wie OCR im Grundsatz funktioniert

OCR im Browser mit tesseract.js

Unterstützte Sprachen

Wie genau ist OCR?

Die Grenzen der Texterkennung

Warum OCR Zeit und Ressourcen braucht

So holen Sie das Beste aus OCR heraus

Eine kurze Geschichte der Texterkennung

Was die Erkennung erschwert

Zahlen und Beträge besonders prüfen

Fazit

Was Leserinnen und Leser sonst noch fragen

Mehr zum Thema

Tabellen aus einer PDF in Word retten

Client-seitige Umwandlung: Ihre PDF verlässt den Browser nie

PDF-Umwandlung: Umlaute, Schriften, Spalten, Bilder, Scan-Qualität