PDF Datei - Text kann nicht makiert werden

ML00

Cadet 1st Year
Registriert
Juli 2023
Beiträge
8
Hallo,

ich habe ein PDF Datei, wo ich den Text nicht mit dem Cursor makieren kann. Das liegt wohl sicherlich daran, dass der Text als Bild gespeicht ist.

Kann mir einer sagen wie ich das so machen kann, dass ich den Text makieren bzw. kopieren kann.

Ich hatte versucht die Datei in Google Drive hochzuladen und dann mit Docs zu öffen. Das soll wohl möglich sein. Allerdings kann ich die PDF Datei nicht mit Docs öffnen. Ich kann diese nur im Browser oder in der App als PDF öffnen.
 
Das Zauberwort ist "OCR".
Damit wird der Text erkannt und als unsichtbare Schicht über den Text gelegt, sodass du ihn wieder markieren kannst.
Dass es eine zweite Schicht ist, merkt man manchmal daran, dass die Buchstaben nicht perfekt übereinander liegen, was bei komischen Schriftenarten am stärksten auffällt.

Das kannst du hier testen:
https://tools.pdf24.org/en/ocr-pdf

In der Arbeit verwenden wir alle PDF-XChange Editor, womit man zusätzlich Seiten begradigen, schärfen, Hintergründe entfernen, Flecken säubern, usw. kann.
 
  • Gefällt mir
Reaktionen: Tornhoof, BlaBlam und K3ks
Eine OCR darueber schicken wenn das PDF ein reines Bild enthaelt.
 
  • Gefällt mir
Reaktionen: K3ks
ML00 schrieb:
Das liegt wohl sicherlich daran, dass der Text als Bild gespeicht ist.
Das hatte ich auch gleich vermutet. Vlt. geht evtl. nochmal mit einem PDF-Programm oder mit LibreOffice, evtl. da dem Bildgedöns bei Libre die Datei speichern? E: bzw. "konvertieren" beim speichern, aber schau einfach selbst...
 
Zweite Sonja schrieb:
Das Zauberwort ist "OCR".
Damit wird der Text erkannt und als unsichtbare Schicht über den Text gelegt, sodass du ihn wieder markieren kannst.
Dass es eine zweite Schicht ist, merkt man manchmal daran, dass die Buchstaben nicht perfekt übereinander liegen, was bei komischen Schriftenarten am stärksten auffällt.

Das kannst du hier testen:
https://tools.pdf24.org/en/ocr-pdf

In der Arbeit verwenden wir alle PDF-XChange Editor, womit man zusätzlich Seiten begradigen, schärfen, Hintergründe entfernen, Flecken säubern, usw. kann.
Das hat leider auch nicht geklappt. Ich kann den Text immer noch nicht kopieren und es wird auch folgendes angezeigt - "PDF24 has processed your job. 0 words were recognized."
 
@K3ks Mit Libre kann ich den gsammten Text auf einer Seite aufeinmal verschieben
 
ML00 schrieb:
Allerdings kann ich die PDF Datei nicht mit Docs öffnen.

Soll aber gehen. Allerdings koennen Formatierungen verloren gehen.

Antwort direkt von Google Gemini.

Google Docs performs OCR (Optical Character Recognition) on PDF files by converting them into editable text through Google Drive. Simply upload a PDF to Drive, right-click it, select "Open with," and choose "Google Docs". This extracts text, though complex formatting like tables or columns may not be preserved, and the original image is placed above the text.


Steps to Perform OCR on PDF in Google Docs
  1. Upload: Upload your scanned PDF or image file (JPG, PNG, GIF) to Google Drive.
  2. Open with Google Docs: Right-click the file in Drive, select "Open with," and click "Google Docs".
  3. Process: Google will convert the file, retaining some formatting (bold, italics, font size) while extracting text.
    • Edit and Save: Edit the document, then go to File > Download to save it in a new format (e.g., .docx or .pdf).

Key Details and Limitations
  • File Size/Limits: The file must be under 2MB, and the first 10 pages are converted.
  • Accuracy: While it works well for simple text, it struggles with complex layouts, tables, and columns.
  • Handwriting: The technology can often recognize handwritten text, though accuracy varies.
  • Alternative Option: You can use specialized Google Workspace Marketplace add-ons for more advanced, automated OCR workflows.
 
@BFF Es gibt kein "öffnen mit", sondern nur "öffnen" und als Möglichkeit den Browser oder die App...
 
Das geht bei pdf24 nicht so einfach. Wenn also einfach nicht geht, dann wenigstens kompliziert:
Erst den Text (als Bild) aus der pdf-Datei kopieren (Shift-Win-S, markieren). Eine neue Bilddatei in einem Bildbearbeitungsprogramm (Paint, Gimp) erstellen und das Bild dort einfügen. Das Bild speichern und dann von pdf24 -> Bild in pdf wandeln lassen.
Das Ergebnis-pdf kann dann von der OCR verarbeitet werden.
Einfacher geht es mit OneNote dort kann das Bild eingefügt und anschließend mit Rechtsklick "Text aus Bild kopieren" der Text kopiert werden.
 
Einfach in KI hochladen und den Text extrahieren lassen
 
ML00 schrieb:
Es gibt kein "öffnen mit", sondern nur "öffnen"

Es gibt. Hab das selbst probiert was da steht in der Gemini-Anwort.
Man hat am Ende ein zweites Dokument mit dem extrahierten Text.

Hier aus meinem Google Drive. (1) ist per Rechtsmausklick.

1771785441987.png



Wenn das bei Dir nicht wirklich will, ja dann versuche NAPS2. Damit funktioniert eine OCR definitiv.

1771785189644.png


Das Ergebnis hier mit dem Edge geoeffnet.

1771785277790.png
 
  • Gefällt mir
Reaktionen: nutrix
Wenn es nur darum geht ein wenig Text zu kopieren. Die Datei im Acrobat Reader öffnen und mit dem Windows Snipping Tool und dem Text Extraktor den Text erkennen und kopieren.
1771787034366.png
 
  • Gefällt mir
Reaktionen: nutrix und K3ks
Zurück
Oben