Jede Seite einer PDF als TIF extrahieren

Mr. Brooks

Lt. Commander
Registriert
Aug. 2011
Beiträge
1.441
Hallo,

ich versuche gerade jede Seite einer PDF als einzelne Bilddatei zu extrahieren um diese dann weiterverarbeiten zu können. Das hab ich bisher mit einem Script mit dem Tool "pdfimages" gemacht. Das Tool erkennt aber leider einzelne Seiten mit 1x1px. ImageMagick oder GraphicsMagick geben eine schlechte Qualität aus, wenn ich keine zusätzlichen Optionen wie die Auflösung (-density) mit angebe. Das soll aber auch nicht gemacht werden, jede PDF-Datei und teils auch jede Seite einer PDF haben ja individuelle Auflösungen. Verschiedene Windows-Tools können das ja auch. Zum Bsp. gibt mit PDF xChangeEditor jede Seite in gleicher Qualität wie das Original aus und jede Seite hat eine unterschiedliche Größe, so wie es mit im PDF-Reader angezeigt wird.

Müsste ich jetzt erst umständlich die Größe für jede Seite auslesen und dann an den IM/GM-Aufruf weitergeben? Ich finde nichts wie die Tools das selber ermitteln können. Das gleiche trifft scheinbar auch auf Ghostscript zu.

Hatte auch gelesen, dass PDF "keine echte Auflösung" hat, keine Ahnung was damit gemeint sein soll. Wie kann ein Bild keine Auflösung haben?

Ich arbeite unter Ubuntu, nicht Windows.

Mr. Brooks
 
Mr. Brooks schrieb:
...Hatte auch gelesen, dass PDF "keine echte Auflösung" hat, keine Ahnung was damit gemeint sein soll. Wie kann ein Bild keine Auflösung haben?...
Du weisst aber schon, dass ein PDF nicht zwangsläufig nur aus Bildern besteht sondern, wie jedes andere Dokumentenformat auch, aus den unterschiedlichsten Inhalten bestehen kann?
 
Portable Document Format kann alles beinhalten mit diversen Auflösung, ja sogar videos. Normale Fotobearbeitungsprogrammen können pdf lesen und auch in TIF umwandeln mit der eingestellten dpi. Z.b. Photoshop, Gimp, usw. und fast alle können das auch als Stapelverarbeitung mit mehreren Dateien machen. Aber warum zum Geier muss man ein optimiertes pdf (mit embedded fonts und Vektordaten in ein pixelbrei „TIF“ umwandeln?
 
Meine PDFs sind nur Bild, nichts weiter. Es sind Scans, selbst wenn da Text drauf ist ist das "Bild".

Auch suche eine Lösung um automatisiert ganze pdfs extrahieren zu können.

Wer sagt, dass die pdfs " optimiert" sind? Was auch immer das sein soll.
 
Vielleicht mal anfangen die Scans direkt als Tif-Dateien zu speichern.
 
Die scans hab ich mal vor Jahren erstellt. Die gibt es nur noch als PDF. Das ist jetzt nun einmal so.
 
Bin mir jetzt nicht sicher, aber mit PDF24 könnte es gehen oder einem anderen PDF Drucker..
 
Die erzeugen doch PDF und extrahieren nichts daraus, aber?
 
Nein, der kann auch speichern. Speziell Bilder.
CN8
 
Zurück
Oben