pdf-word.de

Ratgeber · PDF zu Word 2026

OCR: Wie aus einem gescannten PDF wieder Text wird

Wie optische Zeichenerkennung aus Pixelbildern Text rekonstruiert, welche Rolle Sprachmodelle und Scan-Qualität spielen und warum OCR im Browser mit tesseract.js funktioniert, aber nie hundertprozentig.

Foto von Jan-Tristan Rudat

Von Jan-Tristan Rudat

Redakteur pdf-word.de

9 min Lesezeit Veröffentlicht
Hinweis: Redaktioneller Inhalt. Mathematischer Rechner ohne Beratungsanspruch.

Aus Pixeln werden wieder Buchstaben

Ein gescanntes PDF ist für den Computer zunächst nur ein Bild aus farbigen Punkten. Es enthält keinen Text, den man markieren oder durchsuchen könnte. Damit aus einem solchen Scan wieder bearbeitbarer Text wird, braucht es OCR, die optische Zeichenerkennung (Optical Character Recognition). Dieser Ratgeber erklärt, wie das Verfahren arbeitet, welche Sprachen unterstützt werden, wie genau es ist und wo seine Grenzen liegen.

Wie OCR im Grundsatz funktioniert

OCR läuft in mehreren Stufen ab. Vereinfacht durchläuft das Programm folgende Schritte:

  1. Vorverarbeitung: Das Bild wird begradigt, der Kontrast erhöht und Rauschen entfernt. Ein gerader, kontrastreicher Scan liefert deutlich bessere Ergebnisse.
  2. Segmentierung: Das Programm erkennt, wo Textblöcke, Zeilen, Wörter und einzelne Zeichen liegen.
  3. Erkennung: Jede Zeichenform wird mit gelernten Mustern verglichen und dem wahrscheinlichsten Buchstaben zugeordnet.
  4. Nachbearbeitung: Ein Sprachmodell prüft, ob die erkannten Wörter sinnvoll sind, und korrigiert offensichtliche Fehler anhand des Kontexts.

Der letzte Schritt ist der Grund, warum die OCR-Sprache wichtig ist. Ein deutsches Sprachmodell weiß, dass "Strasse" wahrscheinlich "Straße" heißen soll, und kann Umlaute richtig einordnen.

OCR im Browser mit tesseract.js

Dieser Konverter nutzt tesseract.js, eine JavaScript-Variante der bekannten Open-Source-Engine Tesseract. Das Besondere: Die Erkennung läuft vollständig im Browser auf Ihrem Gerät. Der Scan wird nicht auf einen Server geladen, sondern lokal verarbeitet. Das ist ein klarer Datenschutz-Vorteil, wie der Ratgeber Datenschutz client-seitig ausführt.

Der Ablauf: pdfjs-dist rendert jede Scan-Seite als Bild, tesseract.js erkennt darin den Text, und die docx-Bibliothek baut daraus die Word-Datei. Weil alles lokal läuft, hängt die Geschwindigkeit von Ihrem Gerät ab.

Unterstützte Sprachen

Der Konverter setzt auf Sprachpakete für Deutsch und Englisch, inklusive der deutschen Umlaute und des ß. Für gemischtsprachige Dokumente lassen sich beide kombinieren.

DokumentEmpfohlene Sprache
Deutscher Brief, VertragDeutsch
Englisches DokumentEnglisch
Gemischter TextDeutsch + Englisch

Die Wahl der Sprache ist nicht nebensächlich. Erkennt man ein deutsches Dokument mit englischem Sprachmodell, fehlen die Umlaute im Wörterbuch und ä, ö, ü werden häufiger falsch interpretiert.

Wie genau ist OCR?

Die Genauigkeit hängt stark von der Vorlage ab. Unter guten Bedingungen ist sie erstaunlich hoch, unter schlechten enttäuschend. Die wichtigsten Faktoren:

FaktorGut für OCRSchlecht für OCR
Auflösung300 dpi oder mehrunter 150 dpi
Ausrichtunggeradeschief, verdreht
Kontrastdunkle Schrift, heller Grundgrau in grau, Flecken
Schriftklare DruckschriftHandschrift, Zierschrift

Bei einem sauberen Scan mit klarer Druckschrift liegt die Trefferquote oft über 98 Prozent. Bei schlechten Vorlagen kann sie auf unter 80 Prozent fallen, was viele Korrekturen nach sich zieht.

Die Grenzen der Texterkennung

OCR ist ein leistungsfähiges, aber kein perfektes Verfahren. Einige Dinge bleiben schwierig oder unmöglich:

  • Handschrift: normale OCR ist auf gedruckte Schrift trainiert, Handschrift wird kaum erkannt.
  • Verwechselbare Zeichen: 0 und O, 1 und l, rn und m werden gelegentlich vertauscht.
  • Layout: OCR erkennt Buchstaben, nicht zwingend die richtige Lesereihenfolge bei Spalten.
  • Tabellen: Werte werden erkannt, aber die Zuordnung zu Zellen ist heikel, siehe Ratgeber Tabellen aus PDF extrahieren.
  • Formeln und Sonderzeichen: mathematische Notation wird häufig falsch wiedergegeben.

Deshalb gilt: Nach jeder OCR ist eine Nachkontrolle ratsam, besonders bei Zahlen, Beträgen, Eigennamen und allem, was rechtlich oder finanziell wichtig ist.

Warum OCR Zeit und Ressourcen braucht

Im Gegensatz zum Auslesen einer vorhandenen Textebene muss OCR jede Seite Pixel für Pixel analysieren. Das ist rechenintensiv. Bei einem mehrseitigen, hochauflösenden Dokument kann das spürbar dauern und den Arbeitsspeicher belasten. Weil hier alles lokal im Browser läuft, hängt die Dauer direkt von der Leistung Ihres Geräts ab. Auf einem Smartphone ist Geduld gefragt, mehr dazu im Ratgeber PDF zu Word am Handy.

So holen Sie das Beste aus OCR heraus

  1. Scannen Sie mit mindestens 300 dpi.
  2. Richten Sie die Seiten gerade aus, bevor Sie scannen.
  3. Sorgen Sie für guten Kontrast und vermeiden Sie Schatten.
  4. Wählen Sie die passende OCR-Sprache.
  5. Lesen Sie das Ergebnis gegen, vor allem Zahlen und Namen.

Eine kurze Geschichte der Texterkennung

OCR ist keine neue Erfindung. Erste Lesemaschinen gab es schon in den 1950er Jahren, etwa zum automatischen Sortieren von Post. Lange Zeit erkannten diese Systeme nur ganz bestimmte, dafür entworfene Schriften. Erst mit leistungsfähigeren Computern und später mit Methoden des maschinellen Lernens wurde die Erkennung beliebiger Druckschriften praktikabel. Die Engine Tesseract, auf der tesseract.js aufbaut, stammt ursprünglich aus den 1980er Jahren, wurde später quelloffen und gehört heute zu den am weitesten verbreiteten OCR-Systemen. Dass diese Technik inzwischen direkt im Browser läuft, ist erst durch WebAssembly möglich geworden, das rechenintensiven Code im Browser nahezu in nativer Geschwindigkeit ausführt.

Was die Erkennung erschwert

HindernisAuswirkung
Niedrige AuflösungBuchstaben verschwimmen, Verwechslungen
SchräglageZeilen werden falsch segmentiert
Durchscheinendes PapierRückseitentext stört die Erkennung
Mehrspaltiger Satzfalsche Lesereihenfolge
Ungewöhnliche SchriftMuster passen nicht zum Modell

Viele dieser Hindernisse lassen sich durch sorgfältiges Scannen vermeiden. Eine gerade aufgelegte Seite mit hoher Auflösung und gutem Kontrast ist die halbe Miete.

Zahlen und Beträge besonders prüfen

Bei OCR ist nicht jeder Fehler gleich schwer. Ein falsch erkannter Buchstabe in einem Wort fällt beim Lesen meist auf und der Sinn bleibt erhalten. Eine falsch erkannte Ziffer in einem Betrag dagegen ist tückisch, weil 1234 statt 1284 völlig plausibel aussieht. Das Sprachmodell hilft bei Wörtern, nicht aber bei Zahlen, denn jede Ziffernfolge ist grundsätzlich möglich. Deshalb gilt: Bei Rechnungen, Kontoauszügen und allen Dokumenten mit Zahlen sollte man jeden Wert gegen das Original abgleichen.

Fazit

OCR macht aus den Pixeln eines Scans wieder bearbeitbaren Text. Mit tesseract.js und WebAssembly läuft das vollständig im Browser, ohne dass die Datei das Gerät verlässt. Die Genauigkeit ist bei sauberen Vorlagen sehr hoch, sinkt aber bei schlechten Scans deutlich, und Handschrift bleibt eine echte Grenze. Besonders Zahlen verlangen eine Nachkontrolle, weil das Sprachmodell hier nicht helfen kann. Wer die Scan-Qualität beachtet und das Ergebnis gegenliest, bekommt aus einem gescannten PDF ein brauchbares Word-Dokument. Ob Ihre PDF überhaupt OCR braucht, klärt der Ratgeber Text-PDF vs. gescanntes PDF.

Häufige Fragen

Was Leserinnen und Leser sonst noch fragen

Was bedeutet OCR?
OCR steht für Optical Character Recognition, auf Deutsch optische Zeichenerkennung. Die Technik analysiert ein Bild, findet Buchstabenformen und ordnet ihnen die passenden Zeichen zu. So wird aus einem Scan, der nur aus Pixeln besteht, wieder bearbeitbarer Text.
Welche Sprachen erkennt die OCR hier?
Der Konverter nutzt tesseract.js mit Sprachpaketen für Deutsch und Englisch, inklusive deutscher Umlaute und ß. Für gemischte Dokumente lassen sich beide Sprachen kombinieren. Andere Sprachen mit lateinischer Schrift werden teils mit erkannt, aber mit geringerer Genauigkeit.
Wie genau ist die Texterkennung?
Bei einem sauberen Scan mit 300 dpi, gerader Ausrichtung und klarer Druckschrift liegt die Trefferquote oft über 98 Prozent. Bei schiefen, kontrastarmen oder niedrig aufgelösten Scans, Handschrift oder ungewöhnlichen Schriften sinkt sie deutlich. Eine Nachkontrolle des Texts ist immer ratsam.
Warum dauert OCR länger als eine normale Umwandlung?
Weil jede Seite als Bild gerendert und Pixel für Pixel analysiert werden muss. Das ist rechenintensiv und läuft hier vollständig im Browser auf Ihrem Gerät. Mehrseitige oder hochaufgelöste Dokumente brauchen daher spürbar mehr Zeit und Arbeitsspeicher als ein reines Text-PDF.
Anzeige

Mehr zum Thema

Anzeige
Anzeige
Anzeige
Anzeige