pdf-word.de

Glossar-Eintrag

Zeichenkodierung

Regelwerk, das Zeichen wie Buchstaben und Umlaute auf maschinenlesbare Zahlenwerte abbildet, etwa UTF-8.

Die Zeichenkodierung legt fest, wie Zeichen, also Buchstaben, Ziffern, Umlaute und Sonderzeichen, intern als Zahlenwerte gespeichert werden. Die heute verbreitetste Kodierung ist UTF-8, die den gesamten Unicode-Zeichensatz abbildet und damit auch ä, ö, ü und ß korrekt darstellt.

Bei der Umwandlung von PDF zu Word ist die durchgängig korrekte Kodierung entscheidend, damit Umlaute und Sonderzeichen nicht als Fragezeichen oder kaputte Zeichenfolgen erscheinen. Der erkannte oder ausgelesene Text muss in UTF-8 bis ins erzeugte DOCX erhalten bleiben.

Probleme entstehen vor allem beim Auslesen der Textebene: Manche PDFs hinterlegen die Glyphen ohne klare Zuordnung zum Unicode-Codepunkt. Dann liest pdf.js zwar ein Zeichen, aber das falsche. Bei der OCR wiederum hängt die korrekte Wiedergabe von Umlauten vom richtigen Sprachmodell ab.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige