pdf-word.de

Glossar-Eintrag

Konvertierungsqualität

Maß dafür, wie genau das umgewandelte Word-Dokument Text und Struktur des Ausgangs-PDFs wiedergibt.

Die Konvertierungsqualität beschreibt, wie gut das erzeugte Word-Dokument den ursprünglichen PDF-Inhalt wiedergibt. Sie umfasst zwei Ebenen: die Genauigkeit des Textes (Wortlaut, Sonderzeichen) und die Treue der Struktur (Absätze, Überschriften, Tabellen).

Den größten Einfluss hat die Art des PDFs. Ein durchsuchbares PDF mit sauberer Textebene liefert nahezu fehlerfreien Text, weil pdfjs ihn direkt ausliest. Ein gescanntes PDF hängt dagegen von der OCR ab, deren Erkennungsrate mit schlechter Vorlage sinkt.

Bei der Struktur sind Grenzen ehrlich zu benennen: Einfache Textseiten werden zuverlässig übernommen, komplexe Layouts mit mehreren Spalten, verschachtelten Tabellen oder Textboxen aber nur vereinfacht. Eine pixelgenaue Wiederherstellung des ursprünglichen Layouts ist technisch nicht das Ziel, das Ergebnis ist ein sauber bearbeitbarer Textfluss.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige