Begriffe · Word & PDF 2026

PDF-zu-Word-Glossar

25 zentrale Begriffe rund um Dateiformate, Schriften und die Konvertierung, kompakt und verständlich erklärt.

Maß für die Punktdichte eines gescannten oder gerasterten Bildes, angegeben in Punkten pro Zoll (dots per inch).

Die Auflösung gibt an, wie viele Bildpunkte pro Zoll (dpi) ein gescanntes oder gerastertes Dokument enthält. Je höher der Wert, desto feiner die Darstellung und desto größer die Datei. Übliche Werte sind 150 dpi für Bildschirmqualität und 300 dpi für Druck.

Für die Texterkennung ist die Auflösung entscheidend. Ein Scan unter 200 dpi liefert oft zu wenig Detail, sodass die OCR Buchstaben nicht sicher trennen kann. Erkennungsraten verbessern sich deutlich, wenn die Vorlage mit mindestens 300 dpi gescannt wurde.

Bei einem gescannten PDF ist die DPI-Angabe bereits im eingebetteten Bild festgelegt und lässt sich nachträglich nicht erhöhen. Fehlende Bildinformation kann keine Software zurückrechnen. Wer ein schlechtes Erkennungsergebnis hat, scannt die Vorlage besser erneut mit höherer Auflösung, statt das vorhandene Bild hochzuskalieren.

Verwandt: Gescanntes PDF,OCR (Texterkennung),Rastergrafik

Bearbeitbares Dokument

Datei, deren Text und Struktur sich nachträglich ändern lassen, im Gegensatz zu einem festen Seitenlayout wie PDF.

Ein bearbeitbares Dokument speichert seinen Inhalt als strukturierten, veränderbaren Fließtext. In einer Word-Datei (DOCX) liegen Absätze, Überschriften und Tabellen als logische Elemente vor, die man umschreiben, verschieben oder neu formatieren kann.

Ein PDF ist dagegen primär ein Anzeige- und Druckformat. Es fixiert Text an festen Positionen auf der Seite. Zwar enthält ein durchsuchbares PDF eine Textebene, doch fehlt die logische Gliederung in echte Absätze und Formatvorlagen, wie Word sie kennt.

Die Umwandlung von PDF zu Word hat genau dieses Ziel: aus dem festen Layout wieder ein bearbeitbares Dokument zu machen. Die Software liest die Textebene oder erkennt den Text per OCR und ordnet ihn anschließend in Absätze ein. Das Ergebnis ist nutzbar, erreicht bei komplexem Layout aber nicht immer die exakte Struktur des Originals.

Verwandt: DOCX,Durchsuchbares PDF,Textebene

DOCX

Standard-Dateiformat von Microsoft Word seit 2007, ein ZIP-Container mit XML-Dateien nach dem OOXML-Standard.

DOCX ist das aktuelle Standardformat von Microsoft Word, eingeführt mit Office 2007. Die Endung lautet .docx. Es ist ein offenes, textbasiertes Format und damit das Zielformat der Umwandlung von PDF zu Word.

Technisch ist eine DOCX-Datei ein ZIP-Archiv, das mehrere XML-Dateien sowie eingebettete Medien enthält. Der eigentliche Text liegt in der Datei document.xml. Diese Struktur folgt dem OOXML-Standard (Office Open XML) und ist als ISO/IEC 29500 normiert.

Beim Konvertieren erzeugt eine JavaScript-Bibliothek wie die docx-Lib aus dem aus dem PDF gewonnenen Text ein gültiges DOCX. Absätze, Überschriften und einfache Tabellen werden als entsprechende OOXML-Elemente geschrieben. Das Ergebnis öffnet sich in Word, LibreOffice und Google Docs und lässt sich frei weiterbearbeiten.

Verwandt: OOXML,pdf.js,Bearbeitbares Dokument

Durchsuchbares PDF

PDF mit einer maschinell lesbaren Textebene, sodass sich der Inhalt markieren, kopieren und durchsuchen lässt.

Ein durchsuchbares PDF enthält neben der sichtbaren Darstellung eine maschinell lesbare Textebene. Dadurch lässt sich der Inhalt markieren, kopieren, per Suchfunktion finden und ohne Umwege weiterverarbeiten.

Solche PDFs entstehen typischerweise, wenn ein Dokument direkt aus einem Textprogramm exportiert wird. Ein gescanntes PDF dagegen ist zunächst nur ein Bild der Seite und wird erst durchsuchbar, wenn per OCR eine Textebene ergänzt wurde.

Für die Umwandlung in Word ist ein durchsuchbares PDF der Idealfall. Die Software liest die vorhandene Textebene direkt mit pdfjs aus, ohne Texterkennung. Das ist schnell, fehlerfrei beim Wortlaut und erhält Sonderzeichen sowie Umlaute zuverlässig.

Verwandt: Textebene,Gescanntes PDF,pdf.js

Gescanntes PDF

PDF, das eine Seite nur als Bild enthält, ohne maschinell lesbaren Text, etwa aus einem Scanner oder Foto.

Ein gescanntes PDF entsteht, wenn ein Papierdokument eingescannt oder abfotografiert und als PDF gespeichert wird. Jede Seite liegt dann als Rastergrafik vor, also als reines Bild, ohne eine darunterliegende Textebene.

Für das Auge sieht ein gescanntes PDF aus wie ein normales Dokument, doch der Text ist für die Software unsichtbar. Man kann ihn weder markieren noch kopieren oder durchsuchen, weil keine Zeichen, sondern nur Pixel gespeichert sind.

Um ein gescanntes PDF in Word umzuwandeln, ist eine Texterkennung (OCR) nötig. tesseract.js analysiert das Bild und rechnet die erkannten Buchstaben in echten Text um. Die Qualität hängt stark von Auflösung, Kontrast und Sauberkeit des Scans ab und erreicht selten exakt hundert Prozent.

Verwandt: OCR (Texterkennung),Rastergrafik,Auflösung (DPI)

Glyphe

Konkrete grafische Darstellung eines Zeichens in einer Schriftart, etwa die gezeichnete Form des Buchstabens "a".

Eine Glyphe ist die sichtbare, gezeichnete Form eines Zeichens innerhalb einer Schriftart. Ein und dasselbe Zeichen, etwa der Buchstabe a, sieht in verschiedenen Schriften unterschiedlich aus, weil jede Schrift eine eigene Glyphe dafür mitbringt.

Wichtig ist die Unterscheidung zwischen Zeichen und Glyphe: Das Zeichen ist die abstrakte Bedeutung (der Codepunkt im Unicode), die Glyphe ist seine konkrete Darstellung. Eine Ligatur etwa fasst zwei Zeichen zu einer einzigen Glyphe zusammen.

Bei der Textextraktion aus einem PDF kann dieser Unterschied Probleme bereiten. Manche PDFs speichern intern Glyphen-Indizes statt klarer Zeichen-Codes. Fehlt die korrekte Zuordnung zurück auf den Unicode-Codepunkt, liest pdfjs unter Umständen falsche oder leere Zeichen aus, was die Umwandlung verfälscht.

Verwandt: Ligatur,Zeichenkodierung,Schrifteinbettung

Hochformat / Querformat

Die zwei möglichen Seitenausrichtungen eines Dokuments: hochkant (Portrait) oder quer (Landscape).

Hochformat (englisch Portrait) und Querformat (englisch Landscape) beschreiben die Ausrichtung einer Seite. Im Hochformat ist die Seite höher als breit, im Querformat breiter als hoch. Bei A4 entspricht das 210 mal 297 Millimeter (hoch) beziehungsweise 297 mal 210 Millimeter (quer).

PDFs können Seiten in beiden Ausrichtungen und sogar gemischt enthalten. Querformat findet sich vor allem bei breiten Tabellen, Diagrammen oder Präsentationen, die im Hochformat nicht genug Platz hätten.

Bei der Umwandlung in Word wird die Ausrichtung der Seite ausgewertet und im erzeugten DOCX gesetzt. Weil Word den Inhalt aber als fließenden Text neu umbricht und nicht pixelgenau positioniert, dient die Ausrichtung eher der Orientierung als der exakten Rekonstruktion des ursprünglichen Seitenbildes.

Verwandt: Layout-Analyse,Mehrspaltenlayout,DOCX

Konvertierungsqualität

Maß dafür, wie genau das umgewandelte Word-Dokument Text und Struktur des Ausgangs-PDFs wiedergibt.

Die Konvertierungsqualität beschreibt, wie gut das erzeugte Word-Dokument den ursprünglichen PDF-Inhalt wiedergibt. Sie umfasst zwei Ebenen: die Genauigkeit des Textes (Wortlaut, Sonderzeichen) und die Treue der Struktur (Absätze, Überschriften, Tabellen).

Den größten Einfluss hat die Art des PDFs. Ein durchsuchbares PDF mit sauberer Textebene liefert nahezu fehlerfreien Text, weil pdfjs ihn direkt ausliest. Ein gescanntes PDF hängt dagegen von der OCR ab, deren Erkennungsrate mit schlechter Vorlage sinkt.

Bei der Struktur sind Grenzen ehrlich zu benennen: Einfache Textseiten werden zuverlässig übernommen, komplexe Layouts mit mehreren Spalten, verschachtelten Tabellen oder Textboxen aber nur vereinfacht. Eine pixelgenaue Wiederherstellung des ursprünglichen Layouts ist technisch nicht das Ziel, das Ergebnis ist ein sauber bearbeitbarer Textfluss.

Verwandt: OCR (Texterkennung),Layout-Analyse,Tabellenerkennung

Layout-Analyse

Verfahren, das die Anordnung von Textblöcken, Spalten und Bildern auf einer Seite erkennt und logisch ordnet.

Die Layout-Analyse untersucht, wie der Inhalt einer Seite räumlich angeordnet ist. Sie erkennt zusammenhängende Textblöcke, trennt Spalten, identifiziert Überschriften und ordnet Bilder oder Tabellen ihren Bereichen zu. Erst dadurch entsteht aus einzelnen Textfragmenten eine sinnvolle Lesereihenfolge.

Bei der Umwandlung von PDF zu Word ist dieser Schritt zentral, denn ein PDF speichert Text oft nur als Folge positionierter Fragmente ohne logische Reihenfolge. Ohne Layout-Analyse würde mehrspaltiger Text zeilenweise quer über die Spalten gelesen und damit unbrauchbar.

Die Analyse arbeitet mit den Koordinaten der Textfragmente, die pdfjs liefert, oder mit den Positionsdaten der OCR. Sie ist anspruchsvoll und fehleranfällig: Bei klaren einspaltigen Seiten gelingt sie gut, bei komplexen Layouts mit Spalten, Kästen und umflossenen Bildern stößt jede automatische Erkennung an Grenzen.

Verwandt: Mehrspaltenlayout,Tabellenerkennung,Textebene

Ligatur

Verschmelzung mehrerer Buchstaben zu einer einzigen Glyphe, etwa "fi" oder "fl" in vielen Schriften.

Eine Ligatur ist die Verschmelzung von zwei oder mehr Buchstaben zu einer einzigen Glyphe. Typische Beispiele sind die Kombinationen fi, fl oder ffi, bei denen sich Buchstabenteile berühren würden und deshalb zu einer gemeinsamen Form zusammengezogen werden.

Ligaturen dienen der Lesbarkeit und Ästhetik im Schriftbild. Für das Auge sind sie unproblematisch, für die maschinelle Textextraktion können sie jedoch zur Stolperfalle werden.

Beim Auslesen eines PDFs mit pdfjs kann eine Ligatur als ein einzelnes Sonderzeichen statt als zwei normale Buchstaben gespeichert sein. Ist die Zuordnung zurück auf die ursprünglichen Zeichen nicht hinterlegt, erscheinen im umgewandelten Word-Dokument an dieser Stelle fehlende oder falsche Buchstaben. Eine nachträgliche Suchen-und-Ersetzen-Korrektur kann solche Fälle bereinigen.

Verwandt: Glyphe,Schrifteinbettung,Zeichenkodierung

Mehrspaltenlayout

Seitenaufbau, bei dem Text in zwei oder mehr nebeneinanderliegenden Spalten fließt, etwa bei Zeitungen.

Ein Mehrspaltenlayout teilt den Text einer Seite in zwei oder mehr nebeneinander verlaufende Spalten. Man kennt es von Zeitungen, Magazinen, wissenschaftlichen Veröffentlichungen und vielen Broschüren. Der Lesefluss verläuft erst die linke Spalte hinunter, dann die rechte.

Für die Umwandlung in Word ist das eine der schwierigsten Konstellationen. Ein PDF speichert die Textfragmente nicht zwingend in Lesereihenfolge, sondern nach ihrer Position. Ohne eine korrekte Layout-Analyse besteht die Gefahr, dass Zeilen aus linker und rechter Spalte vermischt werden.

Die Software muss die Spalten anhand der x-Koordinaten der Textfragmente trennen und jede Spalte für sich von oben nach unten lesen. Das gelingt bei klar getrennten Spalten meist gut, kann aber bei schmalen Abständen, Bildern zwischen den Spalten oder unregelmäßigem Satz fehlerhaft werden. Ein Blick auf das Ergebnis ist hier ratsam.

Verwandt: Layout-Analyse,Hochformat / Querformat,Konvertierungsqualität

Metadaten

Zusatzinformationen über ein Dokument, etwa Titel, Autor, Erstellungsdatum und verwendete Software.

Metadaten sind Informationen über ein Dokument, die nicht zum sichtbaren Inhalt gehören. Dazu zählen Titel, Autor, Erstellungs- und Änderungsdatum, Schlagwörter sowie die Software, mit der die Datei erzeugt wurde. In einem PDF liegen sie im Dokument-Info-Wörterbuch oder als XMP-Block vor.

Beim Auslesen mit pdfjs lassen sich diese Angaben abfragen. Sie können nützlich sein, um etwa den Titel des erzeugten Word-Dokuments vorzubelegen oder zu erkennen, ob ein PDF aus einem Textprogramm oder aus einem Scanner stammt.

Datenschutzrelevant ist, dass Metadaten oft mehr verraten als beabsichtigt, etwa den Namen des Autors oder den Bearbeitungsverlauf. Da die Umwandlung hier vollständig im Browser stattfindet, verlassen weder Inhalt noch Metadaten das Gerät des Nutzers.

Verwandt: PDF,PDF/A,pdf.js

OCR (Texterkennung)

Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.

OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Das Verfahren analysiert das Bild einer Seite, erkennt darin die Formen von Buchstaben und Ziffern und wandelt sie in echten, maschinenlesbaren Text um.

OCR ist immer dann nötig, wenn ein PDF keine Textebene hat, also bei gescannten oder fotografierten Dokumenten. Ohne sie bliebe der Inhalt ein reines Bild und ließe sich nicht in ein bearbeitbares Word-Dokument überführen.

Im Konverter übernimmt tesseract.js diese Aufgabe direkt im Browser. Die Erkennung ist gut, aber nicht unfehlbar: Schlechte Auflösung, schiefe Scans, Flecken, ungewöhnliche Schriften oder geringer Kontrast senken die Trefferquote. Erwartbar sind einzelne falsch erkannte Zeichen, weshalb ein erkanntes Dokument grundsätzlich Korrektur gelesen werden sollte.

Verwandt: tesseract.js,traineddata,Gescanntes PDF

OOXML

Office Open XML, der offene XML-basierte Dateistandard hinter DOCX, XLSX und PPTX.

OOXML (Office Open XML) ist der offene, XML-basierte Dateistandard, auf dem die modernen Office-Formate beruhen. DOCX für Word, XLSX für Excel und PPTX für PowerPoint folgen alle diesem Standard, der als ISO/IEC 29500 normiert ist.

Eine OOXML-Datei ist ein ZIP-Container, der mehrere XML-Dateien und eingebettete Medien bündelt. Bei DOCX beschreibt document.xml den eigentlichen Textinhalt mitsamt Absätzen, Formatierungen und Tabellen über klar definierte XML-Elemente.

Weil der Standard offen dokumentiert ist, können Bibliotheken wie die docx-Lib gültige Word-Dateien erzeugen, ohne Microsoft Word zu verwenden. Beim PDF-zu-Word-Konverter wird der aus dem PDF gewonnene Text in diese OOXML-Struktur geschrieben, sodass das Ergebnis in jeder kompatiblen Anwendung geöffnet werden kann.

Verwandt: DOCX,PDF,Metadaten

PDF

Portable Document Format, ein plattformunabhängiges Format zur seitengetreuen Darstellung von Dokumenten.

Das PDF (Portable Document Format) wurde von Adobe entwickelt und ist heute ein offener ISO-Standard (ISO 32000). Es bildet ein Dokument seitengetreu ab, sodass es auf jedem Gerät und in jedem Programm identisch aussieht, unabhängig von Betriebssystem oder installierten Schriften.

Ein PDF kann sehr unterschiedlich aufgebaut sein. Es gibt durchsuchbare PDFs mit einer maschinenlesbaren Textebene und gescannte PDFs, die nur ein Bild der Seite enthalten. Diese Unterscheidung ist für die Umwandlung in Word entscheidend, da sie über den nötigen Verarbeitungsweg bestimmt.

PDF ist auf Darstellung und Druck optimiert, nicht auf einfache Bearbeitung. Der Text liegt an festen Positionen, ohne die logische Gliederung in Formatvorlagen, die ein Word-Dokument auszeichnet. Genau deshalb erfordert die Rückumwandlung in ein bearbeitbares Format eigene Analyseschritte.

Verwandt: PDF/A,Durchsuchbares PDF,Gescanntes PDF

pdf.js

JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.

pdf.js ist eine quelloffene JavaScript-Bibliothek von Mozilla, die PDFs vollständig im Browser rendert und auswerten kann. Sie steckt unter anderem hinter der PDF-Anzeige in Firefox und kommt ohne Server oder Plugins aus.

Im PDF-zu-Word-Konverter übernimmt pdf.js den ersten Schritt: Es öffnet die PDF-Datei, durchläuft die Seiten und liest die enthaltene Textebene samt der Position jedes Textfragments aus. Diese Koordinaten sind die Grundlage für die anschließende Layout-Analyse.

pdf.js liest nur Text, der als Textebene vorhanden ist. Bei einem gescannten PDF ohne Textebene liefert es entsprechend keinen Text, sondern nur das Seitenbild. Dann muss die Texterkennung mit tesseract.js einspringen. Für durchsuchbare PDFs dagegen ist pdf.js der schnelle und genaue Weg.

Verwandt: Textebene,tesseract.js,Metadaten

PDF/A

Für die Langzeitarchivierung normierte PDF-Variante mit eingebetteten Schriften und ohne externe Abhängigkeiten.

PDF/A ist eine genormte Untervariante des PDF-Formats (ISO 19005), die speziell für die Langzeitarchivierung gedacht ist. Ein PDF/A soll auch in vielen Jahren noch identisch darstellbar sein, weshalb es strenge Anforderungen erfüllt.

Dazu gehört insbesondere, dass alle verwendeten Schriften vollständig eingebettet sein müssen und keine externen Abhängigkeiten, keine Verschlüsselung und keine ausführbaren Inhalte erlaubt sind. Behörden und Archive setzen PDF/A häufig als Pflichtformat ein.

Für die Umwandlung in Word ist PDF/A meist günstig, denn die eingebetteten Schriften und die vorhandene Textebene erleichtern eine saubere Textextraktion mit pdfjs. Ein als PDF/A aus einem Textprogramm erzeugtes Dokument liefert in der Regel ein zuverlässig lesbares Word-Ergebnis.

Verwandt: PDF,Schrifteinbettung,Metadaten

Rastergrafik

Aus einzelnen Bildpunkten (Pixeln) aufgebautes Bild, das beim Vergrößern an Schärfe verliert.

Eine Rastergrafik (auch Pixel- oder Bitmapgrafik) besteht aus einem festen Gitter einzelner Bildpunkte, den Pixeln. Jeder Pixel trägt eine Farbinformation. Fotos und Scans sind immer Rastergrafiken. Typische Dateiformate sind JPEG, PNG und TIFF.

Der Nachteil: Beim Vergrößern werden die Pixel sichtbar, das Bild wirkt unscharf oder klotzig. Die Detailmenge ist durch die Auflösung beim Erstellen festgelegt und lässt sich nachträglich nicht erhöhen. Das Gegenstück ist die verlustfrei skalierbare Vektorgrafik.

Ein gescanntes PDF besteht aus Rastergrafiken, einem Bild pro Seite. Der enthaltene Text ist damit kein Text, sondern nur ein Muster aus Pixeln. Um ihn in ein bearbeitbares Word-Dokument zu bringen, muss die OCR die Buchstabenformen aus dem Pixelbild erkennen und in echte Zeichen umsetzen.

Verwandt: Vektorgrafik,Auflösung (DPI),Gescanntes PDF

Schrifteinbettung

Speicherung der verwendeten Schriftarten direkt in der PDF-Datei, damit Text überall identisch erscheint.

Die Schrifteinbettung (englisch Font-Embedding) bezeichnet das Speichern der verwendeten Schriftarten innerhalb der PDF-Datei. So wird der Text exakt wie gestaltet angezeigt, auch auf Geräten, auf denen die Originalschrift nicht installiert ist.

Ohne Einbettung muss das anzeigende Programm eine Ersatzschrift wählen, was Zeilenumbrüche und Zeichenbreiten verschieben kann. Mit eingebetteter Schrift bleibt die Darstellung geräteunabhängig stabil. PDF/A schreibt die vollständige Einbettung sogar zwingend vor.

Für die Textextraktion ist die Einbettung wichtig, weil eine eingebettete Schrift in der Regel die Zuordnung der Glyphen zu den Unicode-Zeichen mitliefert. Fehlt diese Zuordnung, kann pdf.js Glyphen nicht sauber in Buchstaben zurückübersetzen, was zu falschen Zeichen im Word-Ergebnis führt.

Verwandt: Glyphe,PDF/A,Zeichenkodierung

Tabellenerkennung

Verfahren, das Zeilen- und Spaltenstrukturen in einem Dokument erkennt und als Tabelle rekonstruiert.

Die Tabellenerkennung versucht, aus der Anordnung von Texten und Linien eine logische Tabellenstruktur mit Zeilen und Spalten zu rekonstruieren. Sie ist die Voraussetzung dafür, dass eine im PDF dargestellte Tabelle im Word-Dokument wieder als echte Tabelle erscheint und nicht als loser Text.

Die Aufgabe ist technisch anspruchsvoll, weil PDFs Tabellen sehr unterschiedlich speichern. Manche nutzen sichtbare Linien, andere nur Abstände, wieder andere verschachtelte oder zusammengefasste Zellen. Die Software muss aus Position und Ausrichtung der Textfragmente auf die Zellgrenzen schließen.

Ehrlich gesagt ist dies eine der größten Schwachstellen jeder PDF-zu-Word-Umwandlung. Einfache, klar linierte Tabellen gelingen oft, komplexe Tabellen mit verbundenen Zellen, Umbrüchen innerhalb der Zellen oder ohne Trennlinien werden jedoch häufig nur als ausgerichteter Text statt als echte Tabelle übernommen. Eine manuelle Nachbearbeitung ist dann meist nötig.

Verwandt: Layout-Analyse,Mehrspaltenlayout,Konvertierungsqualität

tesseract.js

JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.

tesseract.js ist eine JavaScript-Portierung der bekannten quelloffenen OCR-Engine Tesseract. Sie führt die Texterkennung vollständig im Browser des Nutzers aus, ohne dass Bilder an einen Server gesendet werden müssen.

Im Konverter kommt tesseract.js immer dann zum Einsatz, wenn ein gescanntes PDF keine Textebene hat. Die Engine bekommt das Seitenbild, erkennt darin die Buchstaben und gibt den Text samt Positionsangaben zurück, der danach mit der docx-Lib in ein Word-Dokument geschrieben wird.

Für die Erkennung lädt tesseract.js Sprachmodelle, sogenannte traineddata-Dateien. Pro Sprache wird ein passendes Modell benötigt, etwa "deu" für Deutsch. Die Genauigkeit ist solide, hängt aber stark von der Scan-Qualität ab. Bei verrauschten oder schiefen Vorlagen ist mit Erkennungsfehlern zu rechnen.

Verwandt: OCR (Texterkennung),traineddata,pdf.js

Textebene

Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.

Die Textebene ist die maschinenlesbare Schicht eines PDFs, die den eigentlichen Text als Zeichen speichert, nicht als Bild. Liegt sie vor, kann man den Inhalt markieren, kopieren, durchsuchen und herauslesen.

PDFs, die direkt aus einem Textprogramm exportiert werden, bringen diese Ebene von Haus aus mit. Gescannte PDFs hingegen besitzen sie zunächst nicht, sondern enthalten nur ein Pixelbild. Erst eine nachträgliche OCR ergänzt eine Textebene.

Für die Umwandlung in Word ist eine vorhandene Textebene der schnellste und genaueste Weg. pdf.js liest sie samt Positionsdaten direkt aus, ohne Texterkennung und ohne deren Fehlerquellen. Sonderzeichen und Umlaute bleiben dabei erhalten, sofern die Schrift eine korrekte Zuordnung der Glyphen zu den Unicode-Zeichen mitliefert.

Verwandt: Durchsuchbares PDF,pdf.js,OCR (Texterkennung)

traineddata

Sprachmodell-Datei für Tesseract, die das für die Erkennung einer bestimmten Sprache nötige Wissen enthält.

Eine traineddata-Datei ist das trainierte Sprachmodell, das die OCR-Engine Tesseract für die Texterkennung einer bestimmten Sprache benötigt. Sie enthält Informationen über die Buchstabenformen, Zeichenkombinationen und das Vokabular dieser Sprache.

Für jede zu erkennende Sprache wird die passende Datei geladen, etwa "deu.traineddata" für Deutsch oder "eng.traineddata" für Englisch. Das richtige Modell verbessert die Erkennung deutlich, weil die Engine dann typische Wörter und Sonderzeichen wie Umlaute kennt.

In tesseract.js werden diese Modelle bei Bedarf nachgeladen. Das bedeutet einen einmaligen Download von einigen Megabyte pro Sprache. Wählt man die falsche oder eine fehlende Sprache, sinkt die Erkennungsrate spürbar, weil die Engine den Text gegen das falsche Vokabular abgleicht.

Verwandt: tesseract.js,OCR (Texterkennung),Zeichenkodierung

Vektorgrafik

Aus mathematisch beschriebenen Formen aufgebaute Grafik, die sich verlustfrei beliebig skalieren lässt.

Eine Vektorgrafik wird nicht aus Pixeln, sondern aus mathematisch beschriebenen Objekten wie Linien, Kurven und Flächen aufgebaut. Dadurch lässt sie sich beliebig vergrößern oder verkleinern, ohne an Schärfe zu verlieren. Logos, Diagramme und Schriftzeichen liegen häufig als Vektor vor.

Im PDF werden Text und einfache Grafiken in der Regel als Vektoren gespeichert. Das ist der Grund, warum sich Text in einem durchsuchbaren PDF beim Zoomen gestochen scharf darstellt, während ein gescanntes Pixelbild verschwimmt.

Für die Umwandlung in Word ist vor allem die Vektor-Natur des Textes relevant. Liegt der Text als Vektor mit korrekter Zeichenzuordnung vor, kann pdf.js ihn direkt und verlustfrei auslesen. Eingebettete Vektor-Illustrationen selbst werden bei einer Textkonvertierung dagegen meist nicht in bearbeitbare Word-Zeichnungen überführt.

Verwandt: Rastergrafik,Auflösung (DPI),Textebene

Zeichenkodierung

Regelwerk, das Zeichen wie Buchstaben und Umlaute auf maschinenlesbare Zahlenwerte abbildet, etwa UTF-8.

Die Zeichenkodierung legt fest, wie Zeichen, also Buchstaben, Ziffern, Umlaute und Sonderzeichen, intern als Zahlenwerte gespeichert werden. Die heute verbreitetste Kodierung ist UTF-8, die den gesamten Unicode-Zeichensatz abbildet und damit auch ä, ö, ü und ß korrekt darstellt.

Bei der Umwandlung von PDF zu Word ist die durchgängig korrekte Kodierung entscheidend, damit Umlaute und Sonderzeichen nicht als Fragezeichen oder kaputte Zeichenfolgen erscheinen. Der erkannte oder ausgelesene Text muss in UTF-8 bis ins erzeugte DOCX erhalten bleiben.

Probleme entstehen vor allem beim Auslesen der Textebene: Manche PDFs hinterlegen die Glyphen ohne klare Zuordnung zum Unicode-Codepunkt. Dann liest pdf.js zwar ein Zeichen, aber das falsche. Bei der OCR wiederum hängt die korrekte Wiedergabe von Umlauten vom richtigen Sprachmodell ab.

Verwandt: Glyphe,Ligatur,Textebene