27. Februar 2014 von Isolde Kommer

Vektorisierte Texte in editierbaren Text umwandeln.

Was tun, wenn das Originaldokument nicht mehr vorhanden ist?

Sollen Drucksachen neu aufbereitet werden, benötigt man den Text und die Bilder, um das Produkt neu zu gestalten und zu setzen. Immer wieder kommt es jedoch vor, dass das Originaldokument nicht mehr vorhanden ist, beschädigt ist oder nicht mehr geöffnet werden kann. Es existiert nur noch ein PDFDokument, in dem die Texte aber teilweise vektorisiert wurden und somit nicht mehr aus dem PDF als Text entnommen und in das neue Layout kopiert werden können.

Vektorisierte Texte können in Acrobat Pro umgewandelt werden

Was tun? Den gesamten vektorisierten Text neu eingeben? Handelt es sich nur um ein paar Zeilen, dann stellt dies kein Problem dar – der Text wird einfach neu eingegeben. Wurden aber ganze Seiten oder sogar das ganze Dokument vektorisiert, dann ist die Neueingabe zu arbeits- und zeitintensiv. Dass Acrobat Pro mit Paper Capture über eine Funktion verfügt, mit der man gescannte Texte wieder in durchsuchbaren und editierbaren Text umwandeln kann, ist mittlerweile sehr vielen Anwendern bekannt. Dass diese Funktion allerdings auch verwendet werden kann, um vektorisierten Text in editierbaren Text umzuwandeln, wissen nur sehr wenige Acrobat-Anwender.

Wie kann ich Texte, die in einem PDF vektorisiert vorliegen, wieder in editierbaren Text umwandeln?

Paper Capture

Die Umwandlung von gescannten und vektorisierten Texten erfolgt in Acrobat Pro über das acrobat-eigene Plug-in Paper Capture.

1. Öffnen Sie die zu vektorisierende Datei.

2. Da die Texterkennung auch die Texte in den Bildern erkennt und in Text umwandelt, werden zuerst die Bilder aus dem Dokument entfernt.

Bilder entfernen

Blenden Sie das Aufgabenfenster Werkzeuge ein und wählen Sie den Befehl Inhalt - Objekt bearbeiten 1. Aktivieren Sie mit dem Werkzeug Objekt bearbeiten die einzelnen Bilder und löschen 2 Sie sie aus der Datei, indem Sie die Entf-Taste drücken oder den Menübefehl Bearbeiten → Löschen wählen.

Damit die Texte in den Bildern nicht erfasst werden, werden sie gelöscht.

Einstellungen »Text erkennen« festlegen

3. Speichern Sie die Dokumentänderungen und starten Sie danach die Texterkennung über den Befehl Texterkennung→ In dieser Datei 3.

4. Nach dem Befehlsaufruf wird das Dialogfenster Text erkennen eingeblendet. Da es sich bei unserem Beispieldokument um ein mehrseitiges Dokument handelt, aktivieren Sie die Option Alle Seiten im Bereich Seiten 4.

Konvertierungseinstellungen ändern

5. Um die aktuellen Konvertierungseinstellungen zu ändern, klicken Sie auf den Schalter Bearbeiten 5.

Die OCR-Texterkennung wird über den Befehl »Texterkennung→ In dieser Datei« gestartet.

Die OCR-Texterkennung wird über den Befehl »Texterkennung - In dieser Datei« gestartet.

Sprache festlegen

6. Für unser Beispieldokument wählen Sie über das Einblendmenü Primäre OCR-Sprache die Sprache Deutsch aus und legen damit fest, welches Wörterbuch für die Texterkennung verwendet werden soll.

7. Über das Einblendmenü PDF-Ausgabestil wählen Sie ...

Kompletten Beitrag als PDF downloaden. (1,4 MiB)

Zurück