Ratgeber · PDF zu Word 2026
Hat meine PDF eine Textebene oder ist sie nur ein Bild?
Der Unterschied zwischen einer PDF mit durchsuchbarer Textebene und einem reinen Scan-Bild, einfache Erkennungstests und welche Konsequenzen das für die Umwandlung in Word hat.
Zwei PDFs, die gleich aussehen und doch verschieden sind
Auf den ersten Blick sehen alle PDFs gleich aus: eine Seite mit Text und Bildern. Im Inneren gibt es aber zwei grundverschiedene Arten. Die eine enthält echten, maschinenlesbaren Text, die andere nur ein Foto der Seite. Welcher Typ vorliegt, entscheidet darüber, wie gut und wie schnell sich die PDF in Word umwandeln lässt.
Das Text-PDF
Ein Text-PDF entsteht, wenn ein Dokument direkt aus einem Programm exportiert wird, etwa aus Word, einem Layoutprogramm oder einem Browser. Es enthält eine Textebene: Jeder Buchstabe ist als Zeichen gespeichert, mit Angabe der Schrift und der Position. Man kann den Text markieren, kopieren und durchsuchen.
Für die Umwandlung in Word ist das der Idealfall. Der Konverter liest mit pdfjs-dist die vorhandenen Zeichen direkt aus, ohne raten zu müssen. Das Ergebnis ist sauber und entsteht in Sekunden.
Das gescannte PDF
Ein gescanntes PDF entsteht, wenn ein Papierdokument mit einem Scanner oder dem Handy fotografiert und als PDF gespeichert wird. Die Seite ist dann ein reines Pixelbild, vergleichbar mit einem Foto. Es gibt keinen Text, sondern nur farbige Punkte, die für das menschliche Auge wie Buchstaben aussehen.
Für eine Maschine ist das zunächst bedeutungslos. Um daraus wieder Text zu machen, braucht es eine OCR-Texterkennung, die die Buchstabenformen analysiert und in Zeichen übersetzt. Wie das funktioniert, erklärt der Ratgeber OCR für gescannte PDFs.
So erkennen Sie den Unterschied in Sekunden
Es gibt mehrere einfache Tests, um herauszufinden, welche Art von PDF Sie vor sich haben:
| Test | Text-PDF | Gescanntes PDF |
|---|---|---|
| Text mit Maus markieren | geht, Buchstaben werden markiert | geht nicht oder nur als Fläche |
| Strg+F Suche nach einem Wort | findet das Wort | findet nichts |
| Stark hineinzoomen | Buchstaben bleiben scharf | Buchstaben werden pixelig |
| Schiefe oder Flecken sichtbar | nein, sauber | oft, weil fotografiert |
Der zuverlässigste Test ist der Markier-Versuch. Lässt sich Text wie in einem Word-Dokument auswählen und kopieren, ist eine Textebene vorhanden. Wird beim Zoomen jeder Buchstabe pixelig statt gestochen scharf, handelt es sich fast sicher um einen Scan.
Der Sonderfall: durchsuchbares gescanntes PDF
Es gibt eine Mischform, die Verwirrung stiften kann. Viele moderne Scanner und Scan-Apps führen direkt beim Scannen eine OCR durch und legen den erkannten Text als unsichtbare Ebene über das Bild. Das nennt man ein durchsuchbares PDF. Hier sieht man das Bild der Seite, kann aber trotzdem Text markieren und suchen.
Für die Umwandlung in Word ist das praktisch: Der Text liegt bereits vor und muss nicht erneut erkannt werden. Allerdings stammt dieser Text aus einer früheren OCR und kann bereits Erkennungsfehler enthalten. Eine Nachkontrolle bleibt deshalb sinnvoll.
Warum der Unterschied über die Qualität entscheidet
Die Art der PDF bestimmt direkt, wie gut das Word-Ergebnis wird:
- Text-PDF: nahezu verlustfreie Übernahme des Texts, schnelle Umwandlung, korrekte Umlaute.
- Gescanntes PDF: Ergebnis hängt von der Scan-Qualität ab, OCR-Fehler möglich, langsamer.
Bei einem sauberen 300-dpi-Scan einer klaren Druckschrift liefert OCR oft sehr gute Ergebnisse. Bei schiefen, kontrastarmen oder niedrig aufgelösten Scans steigt die Fehlerquote spürbar. Wie man die Scan-Qualität verbessert, steht im Ratgeber Häufige Probleme und Lösungen.
Was tun, wenn es ein Scan ist?
Liegt ein gescanntes PDF vor, gibt es ein paar Maßnahmen, die das Ergebnis verbessern:
- Wenn möglich, das Original neu scannen, mit mindestens 300 dpi und gerader Ausrichtung.
- Für ausreichend Kontrast sorgen, also dunkle Schrift auf hellem Grund.
- Die richtige OCR-Sprache wählen, bei deutschen Dokumenten Deutsch, damit Umlaute erkannt werden.
- Nach der Umwandlung den Text gegenlesen, besonders Zahlen und Eigennamen.
Der Konverter erkennt automatisch, ob eine Textebene vorhanden ist, und schaltet bei Scans die OCR über tesseract.js dazu. Sie müssen also nicht selbst entscheiden, welches Verfahren angewendet wird.
Praktische Konsequenz für den Versand
Wer ein Dokument so weitergeben möchte, dass der Empfänger es leicht weiterverarbeiten kann, sollte nach Möglichkeit ein Text-PDF erzeugen statt zu scannen. Ein direkt aus Word exportiertes PDF behält die Textebene. Erst der Ausdruck und das anschließende Einscannen zerstören diese Information und machen aus dem Dokument ein reines Bild. Wo immer möglich, lohnt sich daher der digitale Weg statt des Umwegs über Papier.
Wie man den Typ am Dateigewicht erahnt
Ein zusätzlicher Hinweis liefert die Dateigröße im Verhältnis zur Seitenzahl. Ein reines Text-PDF mit zehn Seiten ist oft nur einige hundert Kilobyte groß, weil Text wenig Speicher braucht. Ein gescanntes PDF mit zehn Seiten kann schnell mehrere Megabyte erreichen, weil jede Seite ein vollwertiges Bild ist. Wirkt eine PDF für ihren Textumfang auffällig groß, spricht das für einen Scan. Das ist kein sicheres Kriterium, aber ein nützlicher erster Eindruck, bevor man den Markier-Test macht.
Warum aus einem Text-PDF ein Scan werden kann
Manchmal beginnt ein Dokument als sauberes Text-PDF und endet als Scan, ohne dass es jemand bemerkt. Das passiert beim Ausdrucken und Wiedereinscannen. Ein digital erzeugtes PDF mit Textebene wird auf Papier gedruckt, unterschrieben und eingescannt. Das neue PDF enthält dann nur noch das Bild der Seite, die ursprüngliche Textebene ist verloren. Wer ein Dokument unterschreiben muss, sollte daher nach Möglichkeit eine digitale Signatur nutzen oder das Original zusätzlich aufbewahren, damit der bearbeitbare Text erhalten bleibt.
Praktische Faustregeln
- Stammt die PDF aus einem E-Mail-Anhang einer Software oder Behörde, ist sie meist ein Text-PDF.
- Wurde sie mit einem Scanner oder per Handy-Foto erzeugt, ist sie ein Scan.
- Lässt sich nichts markieren und ist die Datei groß, ist es fast sicher ein Scan.
- Ist die Schrift beim Zoomen pixelig, handelt es sich um ein Bild.
Diese Faustregeln helfen, schon vor der Umwandlung die richtige Erwartung zu setzen und gegebenenfalls eine bessere Vorlage zu beschaffen.
Fazit
Ob eine PDF echten Text oder nur ein Bild enthält, lässt sich in Sekunden mit dem Markier-Test prüfen, ergänzt durch einen Blick auf die Dateigröße. Diese Unterscheidung ist der wichtigste Faktor für die Qualität der Word-Umwandlung: Text-PDFs werden sauber und schnell übernommen, Scans erfordern OCR und eine Nachkontrolle. Wer den Unterschied kennt, weiß vorab, mit welchem Ergebnis zu rechnen ist, und kann durch besseres Scannen viel herausholen. Wie die Erkennung im Detail arbeitet, vertieft der Ratgeber OCR für gescannte PDFs.
Häufige Fragen