Glossar-Eintrag
pdf.js
JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.
pdf.js ist eine quelloffene JavaScript-Bibliothek von Mozilla, die PDFs vollständig im Browser rendert und auswerten kann. Sie steckt unter anderem hinter der PDF-Anzeige in Firefox und kommt ohne Server oder Plugins aus.
Im PDF-zu-Word-Konverter übernimmt pdf.js den ersten Schritt: Es öffnet die PDF-Datei, durchläuft die Seiten und liest die enthaltene Textebene samt der Position jedes Textfragments aus. Diese Koordinaten sind die Grundlage für die anschließende Layout-Analyse.
pdf.js liest nur Text, der als Textebene vorhanden ist. Bei einem gescannten PDF ohne Textebene liefert es entsprechend keinen Text, sondern nur das Seitenbild. Dann muss die Texterkennung mit tesseract.js einspringen. Für durchsuchbare PDFs dagegen ist pdf.js der schnelle und genaue Weg.
Verwandte Begriffe
Textebene
Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.
tesseract.js
JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.
Metadaten
Zusatzinformationen über ein Dokument, etwa Titel, Autor, Erstellungsdatum und verwendete Software.