pdf-word.de

Glossar-Eintrag

Layout-Analyse

Verfahren, das die Anordnung von Textblöcken, Spalten und Bildern auf einer Seite erkennt und logisch ordnet.

Die Layout-Analyse untersucht, wie der Inhalt einer Seite räumlich angeordnet ist. Sie erkennt zusammenhängende Textblöcke, trennt Spalten, identifiziert Überschriften und ordnet Bilder oder Tabellen ihren Bereichen zu. Erst dadurch entsteht aus einzelnen Textfragmenten eine sinnvolle Lesereihenfolge.

Bei der Umwandlung von PDF zu Word ist dieser Schritt zentral, denn ein PDF speichert Text oft nur als Folge positionierter Fragmente ohne logische Reihenfolge. Ohne Layout-Analyse würde mehrspaltiger Text zeilenweise quer über die Spalten gelesen und damit unbrauchbar.

Die Analyse arbeitet mit den Koordinaten der Textfragmente, die pdfjs liefert, oder mit den Positionsdaten der OCR. Sie ist anspruchsvoll und fehleranfällig: Bei klaren einspaltigen Seiten gelingt sie gut, bei komplexen Layouts mit Spalten, Kästen und umflossenen Bildern stößt jede automatische Erkennung an Grenzen.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige