Ratgeber · PDF zu Word 2026

Hat meine PDF eine Textebene oder ist sie nur ein Bild?

Der Unterschied zwischen einer PDF mit durchsuchbarer Textebene und einem reinen Scan-Bild, einfache Erkennungstests und welche Konsequenzen das für die Umwandlung in Word hat.

Von Mateusz Viola

Verfasser & redaktionelle Verantwortung pdf-word.de

Veröffentlicht

20. April 2026

Aktualisiert: 22. Mai 2026

7 min Lesezeit Veröffentlicht 20. April 2026

Hinweis: Redaktioneller Inhalt. Mathematischer Rechner ohne Beratungsanspruch.

Zwei PDFs, die gleich aussehen und doch verschieden sind

Auf den ersten Blick sehen alle PDFs gleich aus: eine Seite mit Text und Bildern. Im Inneren gibt es aber zwei grundverschiedene Arten. Die eine enthält echten, maschinenlesbaren Text, die andere nur ein Foto der Seite. Welcher Typ vorliegt, entscheidet darüber, wie gut und wie schnell sich die PDF in Word umwandeln lässt.

Das Text-PDF

Ein Text-PDF entsteht, wenn ein Dokument direkt aus einem Programm exportiert wird, etwa aus Word, einem Layoutprogramm oder einem Browser. Es enthält eine Textebene: Jeder Buchstabe ist als Zeichen gespeichert, mit Angabe der Schrift und der Position. Man kann den Text markieren, kopieren und durchsuchen.

Für die Umwandlung in Word ist das der Idealfall. Der Konverter liest mit pdfjs-dist die vorhandenen Zeichen direkt aus, ohne raten zu müssen. Das Ergebnis ist sauber und entsteht in Sekunden.

Das gescannte PDF

Ein gescanntes PDF entsteht, wenn ein Papierdokument mit einem Scanner oder dem Handy fotografiert und als PDF gespeichert wird. Die Seite ist dann ein reines Pixelbild, vergleichbar mit einem Foto. Es gibt keinen Text, sondern nur farbige Punkte, die für das menschliche Auge wie Buchstaben aussehen.

Für eine Maschine ist das zunächst bedeutungslos. Um daraus wieder Text zu machen, braucht es eine OCR-Texterkennung, die die Buchstabenformen analysiert und in Zeichen übersetzt. Wie das funktioniert, erklärt der Ratgeber OCR für gescannte PDFs.

So erkennen Sie den Unterschied in Sekunden

Es gibt mehrere einfache Tests, um herauszufinden, welche Art von PDF Sie vor sich haben:

Test	Text-PDF	Gescanntes PDF
Text mit Maus markieren	geht, Buchstaben werden markiert	geht nicht oder nur als Fläche
Strg+F Suche nach einem Wort	findet das Wort	findet nichts
Stark hineinzoomen	Buchstaben bleiben scharf	Buchstaben werden pixelig
Schiefe oder Flecken sichtbar	nein, sauber	oft, weil fotografiert

Der zuverlässigste Test ist der Markier-Versuch. Lässt sich Text wie in einem Word-Dokument auswählen und kopieren, ist eine Textebene vorhanden. Wird beim Zoomen jeder Buchstabe pixelig statt gestochen scharf, handelt es sich fast sicher um einen Scan.

Der Sonderfall: durchsuchbares gescanntes PDF

Es gibt eine Mischform, die Verwirrung stiften kann. Viele moderne Scanner und Scan-Apps führen direkt beim Scannen eine OCR durch und legen den erkannten Text als unsichtbare Ebene über das Bild. Das nennt man ein durchsuchbares PDF. Hier sieht man das Bild der Seite, kann aber trotzdem Text markieren und suchen.

Für die Umwandlung in Word ist das praktisch: Der Text liegt bereits vor und muss nicht erneut erkannt werden. Allerdings stammt dieser Text aus einer früheren OCR und kann bereits Erkennungsfehler enthalten. Eine Nachkontrolle bleibt deshalb sinnvoll.

Warum der Unterschied über die Qualität entscheidet

Die Art der PDF bestimmt direkt, wie gut das Word-Ergebnis wird:

Text-PDF: nahezu verlustfreie Übernahme des Texts, schnelle Umwandlung, korrekte Umlaute.
Gescanntes PDF: Ergebnis hängt von der Scan-Qualität ab, OCR-Fehler möglich, langsamer.

Bei einem sauberen 300-dpi-Scan einer klaren Druckschrift liefert OCR oft sehr gute Ergebnisse. Bei schiefen, kontrastarmen oder niedrig aufgelösten Scans steigt die Fehlerquote spürbar. Wie man die Scan-Qualität verbessert, steht im Ratgeber Häufige Probleme und Lösungen.

Was tun, wenn es ein Scan ist?

Liegt ein gescanntes PDF vor, gibt es ein paar Maßnahmen, die das Ergebnis verbessern:

Wenn möglich, das Original neu scannen, mit mindestens 300 dpi und gerader Ausrichtung.
Für ausreichend Kontrast sorgen, also dunkle Schrift auf hellem Grund.
Die richtige OCR-Sprache wählen, bei deutschen Dokumenten Deutsch, damit Umlaute erkannt werden.
Nach der Umwandlung den Text gegenlesen, besonders Zahlen und Eigennamen.

Der Konverter erkennt automatisch, ob eine Textebene vorhanden ist, und schaltet bei Scans die OCR über tesseract.js dazu. Sie müssen also nicht selbst entscheiden, welches Verfahren angewendet wird.

Praktische Konsequenz für den Versand

Wer ein Dokument so weitergeben möchte, dass der Empfänger es leicht weiterverarbeiten kann, sollte nach Möglichkeit ein Text-PDF erzeugen statt zu scannen. Ein direkt aus Word exportiertes PDF behält die Textebene. Erst der Ausdruck und das anschließende Einscannen zerstören diese Information und machen aus dem Dokument ein reines Bild. Wo immer möglich, lohnt sich daher der digitale Weg statt des Umwegs über Papier.

Wie man den Typ am Dateigewicht erahnt

Ein zusätzlicher Hinweis liefert die Dateigröße im Verhältnis zur Seitenzahl. Ein reines Text-PDF mit zehn Seiten ist oft nur einige hundert Kilobyte groß, weil Text wenig Speicher braucht. Ein gescanntes PDF mit zehn Seiten kann schnell mehrere Megabyte erreichen, weil jede Seite ein vollwertiges Bild ist. Wirkt eine PDF für ihren Textumfang auffällig groß, spricht das für einen Scan. Das ist kein sicheres Kriterium, aber ein nützlicher erster Eindruck, bevor man den Markier-Test macht.

Warum aus einem Text-PDF ein Scan werden kann

Manchmal beginnt ein Dokument als sauberes Text-PDF und endet als Scan, ohne dass es jemand bemerkt. Das passiert beim Ausdrucken und Wiedereinscannen. Ein digital erzeugtes PDF mit Textebene wird auf Papier gedruckt, unterschrieben und eingescannt. Das neue PDF enthält dann nur noch das Bild der Seite, die ursprüngliche Textebene ist verloren. Wer ein Dokument unterschreiben muss, sollte daher nach Möglichkeit eine digitale Signatur nutzen oder das Original zusätzlich aufbewahren, damit der bearbeitbare Text erhalten bleibt.

Praktische Faustregeln

Stammt die PDF aus einem E-Mail-Anhang einer Software oder Behörde, ist sie meist ein Text-PDF.
Wurde sie mit einem Scanner oder per Handy-Foto erzeugt, ist sie ein Scan.
Lässt sich nichts markieren und ist die Datei groß, ist es fast sicher ein Scan.
Ist die Schrift beim Zoomen pixelig, handelt es sich um ein Bild.

Diese Faustregeln helfen, schon vor der Umwandlung die richtige Erwartung zu setzen und gegebenenfalls eine bessere Vorlage zu beschaffen.

Fazit

Ob eine PDF echten Text oder nur ein Bild enthält, lässt sich in Sekunden mit dem Markier-Test prüfen, ergänzt durch einen Blick auf die Dateigröße. Diese Unterscheidung ist der wichtigste Faktor für die Qualität der Word-Umwandlung: Text-PDFs werden sauber und schnell übernommen, Scans erfordern OCR und eine Nachkontrolle. Wer den Unterschied kennt, weiß vorab, mit welchem Ergebnis zu rechnen ist, und kann durch besseres Scannen viel herausholen. Wie die Erkennung im Detail arbeitet, vertieft der Ratgeber OCR für gescannte PDFs.

Häufige Fragen

Was Leserinnen und Leser sonst noch fragen

Wie erkenne ich, ob meine PDF Text oder nur ein Bild enthält?

Öffnen Sie die PDF und versuchen Sie, ein Wort mit der Maus zu markieren. Lässt sich der Text wie in einem Textdokument auswählen und kopieren, enthält die Datei eine Textebene. Markiert die Maus dagegen nur eine rechteckige Fläche oder gar nichts, handelt es sich um einen Scan.

Warum ist diese Unterscheidung wichtig für die Word-Umwandlung?

Bei einem Text-PDF wird der vorhandene Text direkt ausgelesen, das Ergebnis ist sauber und schnell. Bei einem gescannten PDF gibt es keinen Text, deshalb muss erst OCR die Buchstaben aus den Pixeln erkennen. Das ist langsamer und nie ganz fehlerfrei.

Kann eine PDF beides gleichzeitig sein?

Ja. Viele Scans enthalten zusätzlich eine unsichtbare Textebene, die ein OCR-Programm beim Scannen erzeugt hat (durchsuchbares PDF). Dann ist der Text bereits vorhanden und muss nicht erneut erkannt werden. Manche Dokumente mischen außerdem echte Textseiten mit eingescannten Anhängen.

Über den Autor

Mateusz Viola

Verfasser & redaktionelle Verantwortung pdf-word.de

Mateusz Viola ist Betreiber und redaktionell verantwortlich für pdf-word.de bei der AKARA Solutions GmbH. Er hat den PDF-zu-Word-Konverter aufgebaut und kuratiert die Inhalte. Inhaltlicher Fokus liegt auf der client-seitigen Dokumentkonvertierung: Wie pdfjs die Textebene eines PDF ausliest, wie tesseract.js gescannte Seiten per OCR in Text überführt und wie die docx-Bibliothek daraus eine bearbeitbare .docx-Datei erzeugt, ohne dass eine Datei den Browser verlässt. Ziel ist, dass die Verarbeitung nachvollziehbar bleibt und der Nutzer versteht, welche Formatierung erhalten bleibt und wo die Grenzen bei Tabellen, Mehrspaltigkeit und OCR-Genauigkeit liegen. Er/Sie besitzt KEINE rechtliche, steuerliche oder zertifizierte finanzplanerische Qualifikation. Die Inhalte sind redaktionelle Aufbereitung öffentlicher Quellen und ersetzen keine Beratung.

RedaktionQuellen-RechercheTool-Mechanik

Hat meine PDF eine Textebene oder ist sie nur ein Bild?

Zwei PDFs, die gleich aussehen und doch verschieden sind

Das Text-PDF

Das gescannte PDF

So erkennen Sie den Unterschied in Sekunden

Der Sonderfall: durchsuchbares gescanntes PDF

Warum der Unterschied über die Qualität entscheidet

Was tun, wenn es ein Scan ist?

Praktische Konsequenz für den Versand

Wie man den Typ am Dateigewicht erahnt

Warum aus einem Text-PDF ein Scan werden kann

Praktische Faustregeln

Fazit

Was Leserinnen und Leser sonst noch fragen

Mehr zum Thema

Browser-Konverter oder Server-Dienst? Der ehrliche Vergleich