Glossar-Eintrag
Bearbeitbares Dokument
Datei, deren Text und Struktur sich nachträglich ändern lassen, im Gegensatz zu einem festen Seitenlayout wie PDF.
Ein bearbeitbares Dokument speichert seinen Inhalt als strukturierten, veränderbaren Fließtext. In einer Word-Datei (DOCX) liegen Absätze, Überschriften und Tabellen als logische Elemente vor, die man umschreiben, verschieben oder neu formatieren kann.
Ein PDF ist dagegen primär ein Anzeige- und Druckformat. Es fixiert Text an festen Positionen auf der Seite. Zwar enthält ein durchsuchbares PDF eine Textebene, doch fehlt die logische Gliederung in echte Absätze und Formatvorlagen, wie Word sie kennt.
Die Umwandlung von PDF zu Word hat genau dieses Ziel: aus dem festen Layout wieder ein bearbeitbares Dokument zu machen. Die Software liest die Textebene oder erkennt den Text per OCR und ordnet ihn anschließend in Absätze ein. Das Ergebnis ist nutzbar, erreicht bei komplexem Layout aber nicht immer die exakte Struktur des Originals.
Verwandte Begriffe
DOCX
Standard-Dateiformat von Microsoft Word seit 2007, ein ZIP-Container mit XML-Dateien nach dem OOXML-Standard.
Durchsuchbares PDF
PDF mit einer maschinell lesbaren Textebene, sodass sich der Inhalt markieren, kopieren und durchsuchen lässt.
Textebene
Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.