Vorgehen beim Scannen und PDF erstellen

johnny7

Cadet 3rd Year
Registriert
Nov. 2011
Beiträge
52
Hallo,

ich hoffe, ihr könnt mir weiterhelfen: Ich scanne häufiger Artikel aus Büchern ein, um sie als PDF auf dem Computer zu haben und weiter mit ihnen arbeiten zu können. Der Vorgang ist ziemlich umständlich und mich interessiert außerdem, wie ich die Qualität und die Dateigröße des entstandenden PDFs in ein gutes Verhältnis bekomme. Bisher ging ich immer so vor:

1. Alle Seiten als JPG einscannen, DPI: ca. 300.
2. Mit GIMP jedes Bild einzeln auf die Buchseite reduzieren, also sämtliche schwarzen Ränder wegschneiden.
3. Mit Irfanview und JPG-Kompression rumprobieren. Da es nur um Text geht, scheint mir sogar, ich kann die Qualität auf 10% stellen und ich bemerke keine großen Verluste.
4. Ein leeres OpenOffice-Textdokument erstellen, in dem ich auf jede Seite eines der JPG-Bilder lade und dieses vergrößere, dass es die ganze Seite bedeckt.
5. Mit OpenOffice das ganze als PDF abspeichern.
(6. Mit PDF XChange Viewer eine Texterkennung (OCR) darüberlaufen lassen.)

Das hat so weit auch immer funktioniert, ist eben nur eine umständliche Arbeit, bei der vieles von Hand getan werden muss. Außerdem bin ich mir sehr unsicher, was für die endgültige Qualität und Größe des PDFs am wichtigsten ist: Die DPI beim Scannen oder die JPG-Kompression? Oder ist nach dem Import in OpenOffice sowieso alles egal, weil die Bilder intern komprimiert werden? Bisher war es bei mir so, dass ca. 10 Buch-Doppelseiten ein ca. 6 MB großes PDF ergeben.

Ich bin bei Google nicht auf Anhieb fündig geworden, wie man solche Sachen professionell (aber dennoch nur mit Freeware) erledigt, vor allem wenn es um lange Abschnitte aus Büchern bzw. viele Artikel handelt.
Danke für eure Hilfe oder Verweise auf weiterführende Informationen!
 
Wühl mal ein wenig in den Einstellungen zu deiner Scan-Software. Da solltest du ebenfalls croppen, Kontrast etc. einstellen & mehrere Scans als PDF-Dokument speichern können. Benötigt evtl. ein klein wenig Einarbeitung, danach gehts aber schneller als der riesige Sekretärinnen-Umweg über Scan-Software, GIMP, IrfanView & OpenOffice -> PDFCreator. Jeeez! ^^
OCR sollte ebenfalls mit drin sein.
 
Zuletzt bearbeitet:
- Mit OCR Software (Text-Erkennung) könntest vermutlich einige Schritte ersparen. Bedingt dass das der Text aber gut lesbar ist und der Scanner gut mit der Tiefe (für die Text die Richtung Buchrücken gehen) umgehen kann. Bin nicht sicher ob es eine gute OCR Software als Freeware gibt.
- Buch Seiten rausscheiden/rausschneiden (sofern man das kann :D), Scanner mit ADF Einzug und Duplex Scan-Fähigkeit kaufen und dann immer 20 - 30 Seiten auf einmal einscannen (mit OCR und direkt zu PDF Funktion).
- Direkt E-Book nehmen.

Haben hier so einen älteren Canon Flachbettscanner, der macht das OCR direkt beim Scannen (und kann die auch direkt als PDF abspeichern, auch mehrseitige PDFs sowie automatisches Ausrichten ist möglich).
 
Zuletzt bearbeitet:
Was für ein Scanner?

Ich kenns aus dem Studium und auch jetzt von der Arbeit, dass der Scanner direkt ein PDF aus mehreren Seiten machen kann. D.h. du legst Buch ein scannst, blätterst, scannst usw. und am Ende hast du ein PDF mit allen vorher gescannten Seiten drin. Das waren zwar auch beides Buisness Geräte von Canon bzw. Ricoh (große MuFus), aber sicher, dass deine Software nicht kann? Du hast zwar noch die schwarzen Ränder, aber bei mir waren so bei 300dpi die pdfs ähnlich groß wie bei dir. 10 Seiten DinA4 5mb und mit PDF Tools kannste dann die Seiten entsprechen drehen, z.B. dem PDF XCHANGE oder PDF Annonator oder sonstigen Tools (bei CHip gibts viele).

EDIT: Zu langsam... und warum brauch ich fast 4min für den Text hmm...
 
Danke für eure Antworten!

Der Scanner steht in der Bibliothek, da ist es schlecht, wenn ich den noch während der Nachbearbeitung belege; am einfachsten wäre es, wenn ich das alles im Nachhinein noch machen könnte. Direktes Scannen in PDF habe ich schon probiert, da haben mich die dicken pechschwarzen Ränder immer sehr gestört bzw. generell die mangelnden Möglichkeiten der Nachbearbeitung, wenn ich z. B. auf die erste Seite noch die Literaturangabe schreiben möchte.

Eine Einstellung zum Croppen habe ich noch nicht gefunden, entfernt mir das die Ränder automatisch?
 
Ich lüge dich jetzt an, aber IrfanView müsste doch (Schlagwort Kadmos) direkt scannen können und das umgehend OCR unterwerfen. (Persönlich traue ich den OCR-Fähigkeiten keines Progs wirklich…) Damit und OOo als PDF-Bäcker [Warum? Warum nicht gleich & nur weiter in OOo? PDF kann ich letztlich auch nur lesen…] sollte es zu machen sein.

CN8
 
Danke, dieses Kadmos-Plugin sieht nicht unvernünftig aus.

Aber es liefert nicht exakt das, was ich benötige. Ich möchte ja nicht nur (halbwegs gut erkannten) Text haben, sondern wirklich durch das Buch blättern. Der Vorteil von PDF ist immer, dass das Programm viel schneller startet als OpenOffice und dass man irgendwie unkomplizierter drin blättern kann. Ist nur meine subjektive Empfindung.
Ergänzung ()

Habe etwas gefunden, das mir jetzt deutlich die Arbeit erleichert: IrfanView mit dem Plugin ImPDF kann mir über Optionen - Mehrseitige Bilder aus JPEG-Dateien ein PDF erstellen.

Da das so schnell geht, kann ich jetzt ruhig etwas probieren, welche JPG-Komprimierung mir welche Qualität und Dateigröße des PDFs liefert. Und das Nachbearbeiten - beispielsweise ein Textfeld einzufügen - muss ich jetzt eben bei den JPGs machen. Aber die nervigste Arbeit, das einzelne Einfügen der Bilder in OOo bleibt mir jetzt erspart!
 
Ich hab das an der Uni schon öfters gemacht. Da ist auf sämtlichen Rechnern Adobe Acrobat Pro und Adobe Photoshop installiert. Hast du die Möglichkeit auch irgendwie?

Nach dem Scannen (als jpg, Seiten getrennt) lass ich die Bilder automatisiert durch den Photoshop laufen. Und zwar erhöhe ich die Helligkeit und den Kontrast jeweils leicht. Dadurch wird die Seite weißer (ist beim Scann immer leicht gelb oder grau) und die Schrift hebt sich perfekt vom Hintergrund ab. Damit macht man es auch der OCR-Software leichter.
Danach erzeuge ich mit Adobe Acrobat Pro ein PDF und lasse die OCR-Erkennung drüber laufen. Dabei wird jedes Bild nämlich auch gerade gedreht falls das Buch beim Scann schief lag. Außerdem gibt es eine Funktion, die automatisch einen schwarzen Rand entfernt, falls das JPG einen haben sollte.

Das ganze Prozedere läuft in jedem Programm automatisiert ab, man muss es also nur 1x anstoßen und kann in der Zeit ja schon mal anfangen mit lesen (oder auf Computerbase surfen...). Je nach Anzahl der Seiten und Geschwindigkeit kann es nämlich schon eine ganze Weile dauern.
 
Zuletzt bearbeitet:
Danke auch dir. Das Bearbeiten der Bilder im Batchmodus kann ich ja auch mit IrfanView machen. Für das PDF-Erstellen habe ich jetzt auch einen guten Weg mit IrfanView gefunden, siehe die Ergänzung in meinem vorherigen Post. Dort habe ich übrigens relativ umfangreiche Optionen, z. B. auch die JPG-Komprimierung, die das Plugin netterweise für mich mit erledigt: "mittlere Qualität" ergibt PDFs mit ca. 5 MB pro 10 Seiten. Ich kann auch einstellen, ob die Bilder im Originalformat bleiben oder bspw. auf A4 verändert werden sollen.

Was jetzt noch praktisch wäre, wäre das automatische Zuschneiden der Bilder, also das Entfernen des schwarzen Randes. Das muss doch auch mit GIMP gehen! Die Option "automatisch zuschneiden" bzw. "fanatisch zuschneiden" hat leider nicht gewirkt. Hat dafür jemand eine Idee?
 
Ich mache das leider mit der mitgekommenen SW und an diese Kiste keinen Scanner - deswegen mal die Frage ob ich IrfanView nicht zu Anfang verklickern kann nur bestimmte Teile des Glases zu erfassen?

Und wieder lüge ich: reine Bilder müsste IrfanView ja per Batch beschneiden können, aber statisch. Dynamischer Erkennung traue ich nicht über den Weg. Wenn du also nicht schon beim Scannen oder theoretisch vor der Konvertierung zu PDF was automatisieren kannst sehe ich keine echte Lösung.

Was mich nebenher interessieren würde: ob nun JPG komprimiert oder die Seite als PNG, TIF - allein aus den existenten Pixeln n mal m kann eine PDF aus einem Bild erzeugt werden. Von den Interimsdatenmengen abgesehen, muss es deswegen JPG sein oder geht es dir um kontrollierte Qualitätsverschlechterung? Eine Anzahl systematisch benannter Scans, und wenns einen Schritt mehr bedeutet, müsste man doch auch anderweitig zu einer PDF machen können, wobei ich GhostScript im Hinterkopf habe.

CN8
 
Ich könnte natürlich auch in ein anderes Format scannen - gibt es irgendwo eine kleinere Dateigröße bei größerer Qualität? Die Qualitätsverschlechterung bei JPG macht sich bei reinen Texten imo kaum bemerkbar.
 
Wie gesagt - was willst du? Eine PDF oder die Master-Grafikdateien aus den sich die PDF entwickelt? Im ersten Fall sind die Grafiken eh Müll, also egal ob zusammengequetschtes JPG oder unkomprimiertes TIF - im zweiten latürnich nicht.
(Mein Credo: wenn das nicht fire-and-forget werden soll hasse ich JPG als Scannerrückgabe, und ich hasse es noch mehr wenn ich Bilder bearbeiten muss. JPG ist verlsutbehaftet. Als finaler Output die Darstellung auf einer Website oder am Schirm lasse ichs gelten, ansonsten Nein, Danke.)

CN8
 
Also lieber PDF als Ausgabedateiformat? Solange ich das nicht adäquat nachbearbeiten kann, behelfe ich mit mit JPG.
 
Zurück
Oben