pdf-word.de
Praxis StudiumWissenschaftZitatWord

Beispiel aus der Praxis

PDF-Paper auswerten: Wie Zitate sauber in eine Word-Datei wandern

Eine Studentin will aus einem zweispaltigen Fachartikel-PDF mehrere Passagen wörtlich zitieren. Wie die Konvertierung den Text liefert, warum die Spaltenreihenfolge tückisch ist und worauf beim Zitieren zu achten ist.

Eine Masterstudentin schreibt ihre Abschlussarbeit und will aus einem zweispaltigen Fachartikel mehrere Stellen wörtlich zitieren. Das Paper liegt als PDF vor und hat eine Textebene, lässt sich also markieren. Beim direkten Kopieren aus dem PDF-Viewer geraten die beiden Spalten jedoch durcheinander: Zeilen aus der linken und rechten Spalte landen abwechselnd im Text. Wir zeigen, wie die Konvertierung nach Word den Text strukturierter liefert und worauf beim Zitieren zu achten bleibt.

Warum das Kopieren aus dem PDF scheitert

Ein PDF speichert Text als Zeichen mit Koordinaten, nicht als Lesefluss. Bei einem einspaltigen Dokument fällt das nicht auf. Bei zwei Spalten weiß der einfache Kopier-Befehl nicht, dass erst die ganze linke und dann die ganze rechte Spalte gelesen wird. Er nimmt die Zeichen oft in der falschen Reihenfolge, und das Zitat wird zu Buchstabensalat.

Der Weg über die Word-Konvertierung

  1. Das PDF-Paper in den Konverter auf pdf-word.de ziehen.
  2. pdfjs liest die Textebene mit Positionsdaten aus; eine OCR ist nicht nötig, da das PDF echten Text enthält.
  3. Der Konverter ordnet den Text anhand der x- und y-Koordinaten und versucht, die Spalten in Lesereihenfolge zu bringen.
  4. Die docx-Bibliothek schreibt das Ergebnis als bearbeitbare .docx-Datei.
  5. In Word die gewünschten Passagen markieren und mit korrekter Quellenangabe in die Arbeit übernehmen.

Was bei Mehrspaltigkeit zu beachten ist

Layout im PDF Ergebnis in Word
Einspaltiger Fließtextin korrekter Reihenfolge
Zweispaltiger Satzmeist spaltenweise getrennt, an der Spaltengrenze prüfen
Fußnoten und Seitenzahlenals Text übernommen, können den Fluss unterbrechen
Formeln und Sonderzeichenje nach Schrift unvollständig, einzeln prüfen
Wörtliches Zitatimmer gegen das Original abgleichen

Die Pflicht beim wissenschaftlichen Zitieren

Ein wörtliches Zitat muss exakt mit der Quelle übereinstimmen. Egal ob der Text über Kopieren oder über die Konvertierung in die Arbeit kommt, die zitierte Stelle ist immer Zeichen für Zeichen gegen das Original-PDF zu prüfen. Die Konvertierung erleichtert das Heraustrennen der Spalten, ersetzt aber nicht den Abgleich. Seiten- und Spaltenangaben für den Beleg bleiben ebenfalls Sache des Autors.

Lehre aus dem Fall

Die Word-Konvertierung löst das Mehrspalten-Chaos beim Kopieren besser als der direkte Kopier-Befehl, weil sie den Text nach Position sortiert. Eine Garantie für perfekte Lesereihenfolge ist sie nicht, vor allem an Spaltengrenzen und bei Formeln. Für das Sammeln und Aufbereiten von Zitaten ist sie ein nützlicher Zwischenschritt, der die Endkontrolle am Original nicht abnimmt.

Mehr Beispiele

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige