Ratgeber · PDF zu Word 2026
OCR: Wie aus einem gescannten PDF wieder Text wird
Wie optische Zeichenerkennung aus Pixelbildern Text rekonstruiert, welche Rolle Sprachmodelle und Scan-Qualität spielen und warum OCR im Browser mit tesseract.js funktioniert, aber nie hundertprozentig.
Aus Pixeln werden wieder Buchstaben
Ein gescanntes PDF ist für den Computer zunächst nur ein Bild aus farbigen Punkten. Es enthält keinen Text, den man markieren oder durchsuchen könnte. Damit aus einem solchen Scan wieder bearbeitbarer Text wird, braucht es OCR, die optische Zeichenerkennung (Optical Character Recognition). Dieser Ratgeber erklärt, wie das Verfahren arbeitet, welche Sprachen unterstützt werden, wie genau es ist und wo seine Grenzen liegen.
Wie OCR im Grundsatz funktioniert
OCR läuft in mehreren Stufen ab. Vereinfacht durchläuft das Programm folgende Schritte:
- Vorverarbeitung: Das Bild wird begradigt, der Kontrast erhöht und Rauschen entfernt. Ein gerader, kontrastreicher Scan liefert deutlich bessere Ergebnisse.
- Segmentierung: Das Programm erkennt, wo Textblöcke, Zeilen, Wörter und einzelne Zeichen liegen.
- Erkennung: Jede Zeichenform wird mit gelernten Mustern verglichen und dem wahrscheinlichsten Buchstaben zugeordnet.
- Nachbearbeitung: Ein Sprachmodell prüft, ob die erkannten Wörter sinnvoll sind, und korrigiert offensichtliche Fehler anhand des Kontexts.
Der letzte Schritt ist der Grund, warum die OCR-Sprache wichtig ist. Ein deutsches Sprachmodell weiß, dass "Strasse" wahrscheinlich "Straße" heißen soll, und kann Umlaute richtig einordnen.
OCR im Browser mit tesseract.js
Dieser Konverter nutzt tesseract.js, eine JavaScript-Variante der bekannten Open-Source-Engine Tesseract. Das Besondere: Die Erkennung läuft vollständig im Browser auf Ihrem Gerät. Der Scan wird nicht auf einen Server geladen, sondern lokal verarbeitet. Das ist ein klarer Datenschutz-Vorteil, wie der Ratgeber Datenschutz client-seitig ausführt.
Der Ablauf: pdfjs-dist rendert jede Scan-Seite als Bild, tesseract.js erkennt darin den Text, und die docx-Bibliothek baut daraus die Word-Datei. Weil alles lokal läuft, hängt die Geschwindigkeit von Ihrem Gerät ab.
Unterstützte Sprachen
Der Konverter setzt auf Sprachpakete für Deutsch und Englisch, inklusive der deutschen Umlaute und des ß. Für gemischtsprachige Dokumente lassen sich beide kombinieren.
| Dokument | Empfohlene Sprache |
|---|---|
| Deutscher Brief, Vertrag | Deutsch |
| Englisches Dokument | Englisch |
| Gemischter Text | Deutsch + Englisch |
Die Wahl der Sprache ist nicht nebensächlich. Erkennt man ein deutsches Dokument mit englischem Sprachmodell, fehlen die Umlaute im Wörterbuch und ä, ö, ü werden häufiger falsch interpretiert.
Wie genau ist OCR?
Die Genauigkeit hängt stark von der Vorlage ab. Unter guten Bedingungen ist sie erstaunlich hoch, unter schlechten enttäuschend. Die wichtigsten Faktoren:
| Faktor | Gut für OCR | Schlecht für OCR |
|---|---|---|
| Auflösung | 300 dpi oder mehr | unter 150 dpi |
| Ausrichtung | gerade | schief, verdreht |
| Kontrast | dunkle Schrift, heller Grund | grau in grau, Flecken |
| Schrift | klare Druckschrift | Handschrift, Zierschrift |
Bei einem sauberen Scan mit klarer Druckschrift liegt die Trefferquote oft über 98 Prozent. Bei schlechten Vorlagen kann sie auf unter 80 Prozent fallen, was viele Korrekturen nach sich zieht.
Die Grenzen der Texterkennung
OCR ist ein leistungsfähiges, aber kein perfektes Verfahren. Einige Dinge bleiben schwierig oder unmöglich:
- Handschrift: normale OCR ist auf gedruckte Schrift trainiert, Handschrift wird kaum erkannt.
- Verwechselbare Zeichen: 0 und O, 1 und l, rn und m werden gelegentlich vertauscht.
- Layout: OCR erkennt Buchstaben, nicht zwingend die richtige Lesereihenfolge bei Spalten.
- Tabellen: Werte werden erkannt, aber die Zuordnung zu Zellen ist heikel, siehe Ratgeber Tabellen aus PDF extrahieren.
- Formeln und Sonderzeichen: mathematische Notation wird häufig falsch wiedergegeben.
Deshalb gilt: Nach jeder OCR ist eine Nachkontrolle ratsam, besonders bei Zahlen, Beträgen, Eigennamen und allem, was rechtlich oder finanziell wichtig ist.
Warum OCR Zeit und Ressourcen braucht
Im Gegensatz zum Auslesen einer vorhandenen Textebene muss OCR jede Seite Pixel für Pixel analysieren. Das ist rechenintensiv. Bei einem mehrseitigen, hochauflösenden Dokument kann das spürbar dauern und den Arbeitsspeicher belasten. Weil hier alles lokal im Browser läuft, hängt die Dauer direkt von der Leistung Ihres Geräts ab. Auf einem Smartphone ist Geduld gefragt, mehr dazu im Ratgeber PDF zu Word am Handy.
So holen Sie das Beste aus OCR heraus
- Scannen Sie mit mindestens 300 dpi.
- Richten Sie die Seiten gerade aus, bevor Sie scannen.
- Sorgen Sie für guten Kontrast und vermeiden Sie Schatten.
- Wählen Sie die passende OCR-Sprache.
- Lesen Sie das Ergebnis gegen, vor allem Zahlen und Namen.
Eine kurze Geschichte der Texterkennung
OCR ist keine neue Erfindung. Erste Lesemaschinen gab es schon in den 1950er Jahren, etwa zum automatischen Sortieren von Post. Lange Zeit erkannten diese Systeme nur ganz bestimmte, dafür entworfene Schriften. Erst mit leistungsfähigeren Computern und später mit Methoden des maschinellen Lernens wurde die Erkennung beliebiger Druckschriften praktikabel. Die Engine Tesseract, auf der tesseract.js aufbaut, stammt ursprünglich aus den 1980er Jahren, wurde später quelloffen und gehört heute zu den am weitesten verbreiteten OCR-Systemen. Dass diese Technik inzwischen direkt im Browser läuft, ist erst durch WebAssembly möglich geworden, das rechenintensiven Code im Browser nahezu in nativer Geschwindigkeit ausführt.
Was die Erkennung erschwert
| Hindernis | Auswirkung |
|---|---|
| Niedrige Auflösung | Buchstaben verschwimmen, Verwechslungen |
| Schräglage | Zeilen werden falsch segmentiert |
| Durchscheinendes Papier | Rückseitentext stört die Erkennung |
| Mehrspaltiger Satz | falsche Lesereihenfolge |
| Ungewöhnliche Schrift | Muster passen nicht zum Modell |
Viele dieser Hindernisse lassen sich durch sorgfältiges Scannen vermeiden. Eine gerade aufgelegte Seite mit hoher Auflösung und gutem Kontrast ist die halbe Miete.
Zahlen und Beträge besonders prüfen
Bei OCR ist nicht jeder Fehler gleich schwer. Ein falsch erkannter Buchstabe in einem Wort fällt beim Lesen meist auf und der Sinn bleibt erhalten. Eine falsch erkannte Ziffer in einem Betrag dagegen ist tückisch, weil 1234 statt 1284 völlig plausibel aussieht. Das Sprachmodell hilft bei Wörtern, nicht aber bei Zahlen, denn jede Ziffernfolge ist grundsätzlich möglich. Deshalb gilt: Bei Rechnungen, Kontoauszügen und allen Dokumenten mit Zahlen sollte man jeden Wert gegen das Original abgleichen.
Fazit
OCR macht aus den Pixeln eines Scans wieder bearbeitbaren Text. Mit tesseract.js und WebAssembly läuft das vollständig im Browser, ohne dass die Datei das Gerät verlässt. Die Genauigkeit ist bei sauberen Vorlagen sehr hoch, sinkt aber bei schlechten Scans deutlich, und Handschrift bleibt eine echte Grenze. Besonders Zahlen verlangen eine Nachkontrolle, weil das Sprachmodell hier nicht helfen kann. Wer die Scan-Qualität beachtet und das Ergebnis gegenliest, bekommt aus einem gescannten PDF ein brauchbares Word-Dokument. Ob Ihre PDF überhaupt OCR braucht, klärt der Ratgeber Text-PDF vs. gescanntes PDF.
Häufige Fragen