Glossar-Eintrag
Tabellenerkennung
Verfahren, das Zeilen- und Spaltenstrukturen in einem Dokument erkennt und als Tabelle rekonstruiert.
Die Tabellenerkennung versucht, aus der Anordnung von Texten und Linien eine logische Tabellenstruktur mit Zeilen und Spalten zu rekonstruieren. Sie ist die Voraussetzung dafür, dass eine im PDF dargestellte Tabelle im Word-Dokument wieder als echte Tabelle erscheint und nicht als loser Text.
Die Aufgabe ist technisch anspruchsvoll, weil PDFs Tabellen sehr unterschiedlich speichern. Manche nutzen sichtbare Linien, andere nur Abstände, wieder andere verschachtelte oder zusammengefasste Zellen. Die Software muss aus Position und Ausrichtung der Textfragmente auf die Zellgrenzen schließen.
Ehrlich gesagt ist dies eine der größten Schwachstellen jeder PDF-zu-Word-Umwandlung. Einfache, klar linierte Tabellen gelingen oft, komplexe Tabellen mit verbundenen Zellen, Umbrüchen innerhalb der Zellen oder ohne Trennlinien werden jedoch häufig nur als ausgerichteter Text statt als echte Tabelle übernommen. Eine manuelle Nachbearbeitung ist dann meist nötig.
Verwandte Begriffe
Layout-Analyse
Verfahren, das die Anordnung von Textblöcken, Spalten und Bildern auf einer Seite erkennt und logisch ordnet.
Mehrspaltenlayout
Seitenaufbau, bei dem Text in zwei oder mehr nebeneinanderliegenden Spalten fließt, etwa bei Zeitungen.
Konvertierungsqualität
Maß dafür, wie genau das umgewandelte Word-Dokument Text und Struktur des Ausgangs-PDFs wiedergibt.