Glossar-Eintrag
Layout-Analyse
Verfahren, das die Anordnung von Textblöcken, Spalten und Bildern auf einer Seite erkennt und logisch ordnet.
Die Layout-Analyse untersucht, wie der Inhalt einer Seite räumlich angeordnet ist. Sie erkennt zusammenhängende Textblöcke, trennt Spalten, identifiziert Überschriften und ordnet Bilder oder Tabellen ihren Bereichen zu. Erst dadurch entsteht aus einzelnen Textfragmenten eine sinnvolle Lesereihenfolge.
Bei der Umwandlung von PDF zu Word ist dieser Schritt zentral, denn ein PDF speichert Text oft nur als Folge positionierter Fragmente ohne logische Reihenfolge. Ohne Layout-Analyse würde mehrspaltiger Text zeilenweise quer über die Spalten gelesen und damit unbrauchbar.
Die Analyse arbeitet mit den Koordinaten der Textfragmente, die pdfjs liefert, oder mit den Positionsdaten der OCR. Sie ist anspruchsvoll und fehleranfällig: Bei klaren einspaltigen Seiten gelingt sie gut, bei komplexen Layouts mit Spalten, Kästen und umflossenen Bildern stößt jede automatische Erkennung an Grenzen.
Verwandte Begriffe
Mehrspaltenlayout
Seitenaufbau, bei dem Text in zwei oder mehr nebeneinanderliegenden Spalten fließt, etwa bei Zeitungen.
Tabellenerkennung
Verfahren, das Zeilen- und Spaltenstrukturen in einem Dokument erkennt und als Tabelle rekonstruiert.
Textebene
Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.