Rechnung als PDF erhalten: Wie der Inhalt in einer Word-Datei weiterverarbeitbar wird

Ein Büro erhält Rechnungen als PDF und braucht die Positionen in bearbeitbarer Form für eigene Aufstellungen. Wie die Konvertierung die Textebene übernimmt und warum die Tabellenstruktur Nacharbeit braucht.

In einem kleinen Büro gehen Lieferantenrechnungen als PDF ein. Für eine interne Kostenaufstellung müssen die Positionen, Mengen und Beträge in ein bearbeitbares Format. Sie abzuschreiben kostet jeden Monat Zeit. Die Rechnungen stammen aus Buchhaltungsprogrammen, das PDF hat also eine saubere Textebene. Wir zeigen, wie der Konverter den Inhalt nach Word holt und wo bei Tabellen Nacharbeit nötig ist.

Der Unterschied zum Scan: hier gibt es eine Textebene

Anders als beim eingescannten Dokument enthält ein aus einem Programm erzeugtes PDF den Text als auslesbare Zeichenebene. Es muss also keine Texterkennung laufen. pdfjs liest die Zeichen direkt aus, inklusive ihrer Position auf der Seite. Das ist schneller und genauer als OCR, weil die Buchstaben exakt feststehen und nicht aus Pixeln geraten werden müssen.

Schritt für Schritt

Die PDF-Rechnung in den Konverter auf pdf-word.de ziehen.
pdfjs erkennt die vorhandene Textebene und liest Text samt Positionsdaten aus, ohne OCR.
Die docx-Bibliothek erzeugt eine .docx-Datei mit Absätzen; tabellarisch angeordneter Text wird anhand der Positionen rekonstruiert.
Die Word-Datei öffnen, die Positionen prüfen und in die eigene Aufstellung übernehmen.

Was ankommt und was Nacharbeit braucht

Element	Verhalten bei der Konvertierung
Fließtext, Anschrift, Rechnungsnummer	zuverlässig übernommen
Beträge und Zahlen	genau, da aus Textebene gelesen
Positionstabelle	Text übernommen, Spaltenraster kann verrutschen
Logo und Layout	nicht Ziel, Fokus liegt auf dem Text
Empfehlung bei Tabellen	Spalten in Word nachziehen

Die Grenze bei komplexen Tabellen

Ein PDF speichert keine logische Tabellenstruktur, sondern nur Text an Koordinaten. Der Konverter rekonstruiert Spalten aus den Positionen, was bei einfachen Aufstellungen gut klappt. Bei verschachtelten Tabellen, zusammengefassten Zellen oder mehreren Beträgen pro Zeile kann das Raster verrutschen. Dann steht der Text zwar vollständig in der Word-Datei, die Zuordnung zu den Spalten muss aber kurz nachgezogen werden. Das ist immer noch schneller als komplettes Abtippen.

Lehre aus dem Fall

Bei PDF mit echter Textebene liefert die Konvertierung den Inhalt zeichengenau, weil keine Schätzung über OCR nötig ist. Schwächen liegen nicht beim Text, sondern bei der Rekonstruktion komplexer Tabellen-Layouts. Für die Weiterverarbeitung von Rechnungspositionen reicht das aus, solange das Spaltenraster nach der Konvertierung einmal geprüft wird.

Mehr Beispiele

Eingescannter Vertrag als Bild-PDF: Wie OCR daraus eine bearbeitbare Word-Datei macht

Business

PDF-Paper auswerten: Wie Zitate sauber in eine Word-Datei wandern

Praxis