Gescanntes PDF

PDF, das eine Seite nur als Bild enthält, ohne maschinell lesbaren Text, etwa aus einem Scanner oder Foto.

Ein gescanntes PDF entsteht, wenn ein Papierdokument eingescannt oder abfotografiert und als PDF gespeichert wird. Jede Seite liegt dann als Rastergrafik vor, also als reines Bild, ohne eine darunterliegende Textebene.

Für das Auge sieht ein gescanntes PDF aus wie ein normales Dokument, doch der Text ist für die Software unsichtbar. Man kann ihn weder markieren noch kopieren oder durchsuchen, weil keine Zeichen, sondern nur Pixel gespeichert sind.

Um ein gescanntes PDF in Word umzuwandeln, ist eine Texterkennung (OCR) nötig. tesseract.js analysiert das Bild und rechnet die erkannten Buchstaben in echten Text um. Die Qualität hängt stark von Auflösung, Kontrast und Sauberkeit des Scans ab und erreicht selten exakt hundert Prozent.

Gescanntes PDF

Verwandte Begriffe