Glossar-Eintrag
Durchsuchbares PDF
PDF mit einer maschinell lesbaren Textebene, sodass sich der Inhalt markieren, kopieren und durchsuchen lässt.
Ein durchsuchbares PDF enthält neben der sichtbaren Darstellung eine maschinell lesbare Textebene. Dadurch lässt sich der Inhalt markieren, kopieren, per Suchfunktion finden und ohne Umwege weiterverarbeiten.
Solche PDFs entstehen typischerweise, wenn ein Dokument direkt aus einem Textprogramm exportiert wird. Ein gescanntes PDF dagegen ist zunächst nur ein Bild der Seite und wird erst durchsuchbar, wenn per OCR eine Textebene ergänzt wurde.
Für die Umwandlung in Word ist ein durchsuchbares PDF der Idealfall. Die Software liest die vorhandene Textebene direkt mit pdfjs aus, ohne Texterkennung. Das ist schnell, fehlerfrei beim Wortlaut und erhält Sonderzeichen sowie Umlaute zuverlässig.
Verwandte Begriffe
Textebene
Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.
Gescanntes PDF
PDF, das eine Seite nur als Bild enthält, ohne maschinell lesbaren Text, etwa aus einem Scanner oder Foto.
pdf.js
JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.