Glossar-Eintrag
Gescanntes PDF
PDF, das eine Seite nur als Bild enthält, ohne maschinell lesbaren Text, etwa aus einem Scanner oder Foto.
Ein gescanntes PDF entsteht, wenn ein Papierdokument eingescannt oder abfotografiert und als PDF gespeichert wird. Jede Seite liegt dann als Rastergrafik vor, also als reines Bild, ohne eine darunterliegende Textebene.
Für das Auge sieht ein gescanntes PDF aus wie ein normales Dokument, doch der Text ist für die Software unsichtbar. Man kann ihn weder markieren noch kopieren oder durchsuchen, weil keine Zeichen, sondern nur Pixel gespeichert sind.
Um ein gescanntes PDF in Word umzuwandeln, ist eine Texterkennung (OCR) nötig. tesseract.js analysiert das Bild und rechnet die erkannten Buchstaben in echten Text um. Die Qualität hängt stark von Auflösung, Kontrast und Sauberkeit des Scans ab und erreicht selten exakt hundert Prozent.
Verwandte Begriffe
OCR (Texterkennung)
Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.
Rastergrafik
Aus einzelnen Bildpunkten (Pixeln) aufgebautes Bild, das beim Vergrößern an Schärfe verliert.
Auflösung (DPI)
Maß für die Punktdichte eines gescannten oder gerasterten Bildes, angegeben in Punkten pro Zoll (dots per inch).