Einscannen eines Buchs - Erhalt der richtigen Paginierung :: welche Werkzeuge hier einsetzen?

tarifa

Lieutenant
Registriert
März 2020
Beiträge
541
Hallo und guten Abend Community,


Ich steh vor einer Aufgabe ein Buch einscannen zu müssen. Ich scanne mit einem Canon C 5235i. Der Canon Drucker ist in der Lage die SCANs so an den Rechner zu senden - als PDF.

Wie gesagt: es ist ein Canon C 5235i - fraglich ob ich hier in die Chain noch hätte eingreifen können. GGF. ja schon.

Frage: Ich rechne grundsätzlich bei dem Weg mit erhebliche Qualitätsverluste - denn ich scanne ja lediglich Text - keine Bilder : Das sollte mit PDF gehen.
Aber - reden wir über die komplette "Chain" - Also: wie würdet ihr das machen:

Anm.: Es ist also nur Text den ich scanne, keine Bilder:

Also: grundsätzlich ist das Ergebnis eines Scans ist zunächst immer eine Rastergrafik (Bitmap-Datei). Ein üblicher Scanner bietet z.B. folgende Ausgabeformate an: TIF, JPG, PDF. So auch der Canon. (vgl. Möglichkeiten dieses Systems )


1625599508224.png


vgl. Canon-Manual des CS5255i - hier Möglichkeiten dieses Systems

zu den Formaten:
-PDF - hier wird vielfach einfach nur eine Rastergrafik in eine PDF-Datei als Inhalt eingebettet - Das Verfahren erschwert die spätere Verarbeitung.
-TIF ist (optisch) verlustfrei; aber eine sehr große Dateigröße
-JPG ist verlustbehaftet, da es i.d.R. komprimiert wird (vgl. Artefakte) - kleine Dateigröße

Zur Verarbeitungskette - der Chain:

Also ich könnte das so machen: ich digitalisiere das Buch...:_
Scan nach TIF; viele Einzeldateien.

Dann vom Canon 5255i die Daten an den Rechner senden. (nebenbei - in einer großen PDF ist das sicher komfortabler als in noch viel viel größeren einzelnen TIF-Dateien. Ich hab hier breits mal einige Tests gemacht. Doch das erläutere ich später.


Also - wenn die Daten - (einzelne Doppelseiten oder ganze Konglomerate also Sagen wir Seite 1 bis Seite 100, dann Seite 101 bis 200 in jeweils einem Paket an den Rechner gesendet wird.

dann könnte ich das z.B. mit XnView weiter bearbeiten:

M.a.W.: ich nehme´ hier das Verfahren einer Batchkonvertierung nach PNG (weniger Dateigröße)
dann kann ich das Ausrichten und zuschneiden (manuell)
Da ich lediglich Text scanne ist hier nicht so viel Gewicht auf Themen wie - Auflösung: Ich brauche mich um dieses (Auflösungs-/Qualitäts)Thema nicht so zu kümmern: Das ist das gute am Ganzen.

Die Kernfrage ist die: Welche Chain setze ich ein um Am Ende die Datei Seite für Seite vorliegen zu haben

a. entweder in einer (einzigen) PDF-Datei oder
b. in einzelnen (gewissermaßen zerlegten) Seiten.

Zu den möglichen Herausforderungen komme ich unten... Was kann schief gehen!?

Hier erstmal ein Test, den ich durchgeführt habe: ein erster Test hat ergeben, dass ein kurzer Ausriss des Buches wie folgt - (also mit der korrekten Paginierung ) gescannt wird.

Code:
┌─────────────────────────────────┐
│ page1                     page2 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
└─────────────────────────────────┘

┌─────────────────────────────────┐
│ page3                    page4  │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
└─────────────────────────────────┘


┌─────────────────────────────────┐
│ page5                      page6│
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
│                                 │
└─────────────────────────────────┘


┌────────────────────────────────┐
│page7                      page8│
│                                │
│                                │
│                                │
│                                │
│                                │
│                                │
│                                │
└────────────────────────────────┘

Soweit - so gut!

Zu den möglichen Herausforderungen komme hier:... Was kann schief gehen!?

Also - diese Herausforderungen, die beginnen wohl ab dem Punkt bei dem die Daten auf dem Rechner sind. Ich habe das ganze Verfahren mal durchgespielt und komplett durchlaufen lassen - mit dem Ergebnis dass die Paginierung komplett umkippt und überhaupt nicht mehr stimmt.

Was bei dem ersten Test herauskam:
Also: ich habe das bereits einmal durchgespielt: Dabei sind die 370 Seiten (je eine Doppelseite wie oben) in 4 Tranchen
1. bis 100
101 bis 200
201 bis 300
300 bis 370 ... auf den Rechner gekommen. Zum Zerlegen der Doppelseiten hab ich dann hier das Tool u. die Dokumentation: MuPDF Documentation
verwendet.

Ich wollte also aus den Doppelseiten die Einzelseiten "herausholen".

1625599528961.png



Das hab ich mal gemacht mit einem Toolpaket

Anhang anzeigen 902989

Die Tools die ich verwendet habe:

mupdf-tools und dann kam noch pdftk hinzu:
pdftk kann zwar ein mehrseitiges PDF in Einzelseiten auftrennen (je Seite eine Datei),
aber nicht Doppelseiten „zerschneiden“. Dazu muss mupdf und die mupdf-tools her.

Code:
apt install mupdf-tools

Ein einseitiges aber auch ein mehrseitiges PDF wird dann Seite für Seite in zwei Seiten vertikal zerschnitten [schnipp-schnapp] mit:

Code:
mutool poster -x 2 input.pdf output.pdf

Die Option -x2 sagt aus, dass das Dokument in der X-Achse in zwei Teile geteilt werden soll. Die Schnittachse ist dementsprechend in der Mitte von oben nach unten, damit links und rechts zwei gleich große Seiten entstehen.
das Tolle: man kann die Schnittachsen einfach in der kommandozeile festlegen - x und y Achsen lassen sich auf der Kommandozeile einfach mit verarbeiten u. festlegen.

Fazit: auf der Kommandozeile sind das für die 370 Seiten - vorliegend in 4 Tranchen genau vier Befehl

Ein Dokument in einzelne Seiten aufsplitten - das geht sehr schnell - das macht man dann mit pdftk

Code:
pdftk input.pdf burst

Die Ausgabefiles finden sich dann schlicht im selben Verzeichnis als pg_0001.pdf, pg_0002.pdf usw.

vgl. auch hier: Doppelseitiges PDF vertikal teilen – Jakob und Linux

und die ganze Dokumentation:
a. weitere Kommandos: mupdf man page - General Commands | ManKier
b. das Tool: MuPDF Documentation: MuPDF is an open source software framework for viewing and converting PDF, XPS, and E-book documents.
There are viewers for various platforms, several command line tools, and a software library for building tools and applications.

The command line tools are all gathered into one umbrella command: mutool.

For rendering and converting documents there are three commands available:

mutool draw: This is the more customizable tool, but also has a more difficult set of command line options. It is primarily used for rendering a document to image files.
mutool convert: This tool is used for converting documents into other formats, and is easier to use.
mutool trace: This is a debugging tool used for printing a trace of the graphics device calls on a page.
There are also several tools specifically for working with PDF files:

mutool show: A tool for displaying the internal objects in a PDF file.
mutool extract: Extract images and embedded font resources.
mutool clean: Rewrite PDF file. Used to fix broken files, or to make a PDF file human editable.
mutool merge: Merge pages from multiple input files into a new PDF.
mutool create: Create a new PDF file from a text file with graphics commands.
And finally, there is a tool for doing anything you can imagine:
mutool run: A tool for running Javascript programs with access to the MuPDF library functions.

Fazit: auf der Kommandozeile sind das für die 370 Seiten - vorliegend in 4 Tranchen genau vier Befehle - und fertig ist der Job.

Doch hier war ich leider noch nicht fertig - denn ich hatte plötzlich eine nicht-lineare Paginierung - mit der man gar nix anfangen kann:

1,3,2,4,6,5,7. und so weiter und so fort.
M.a.W. die PDF-Datei mit den Einzelseiten (!) entstanden ist hatte eine furchtbar falsche Paginierung.

Das lag wohl an der Methode mit der MuPDF die Daten zerlegt hat - da muss es m.E. so etwas geben wie ein Booklet-Format - welches dann für dieses Chaos in meiner Ausgabe sorgte - wohl in der Annahme dass ich mit den gewonnenen Daten ein irgendwie geartetes Booklet baue.

Was ich allerdings brauche, das ist das Ganze in fortlaufenden Seitennummern - also mit einer korrekten Paginierung.


Wie würdet ihr das Ganze angehen - so dass das mit der Paginierung stimmt?

Freue mich auf einen Tipp, 😊

VG

Vermutung: also ich glaube dass der Paginierungs-Salat durch irgend eine Spezialität zustande kam die mir die o.g. Linux-PDF-Tools untergejubelt haben - m.a.W. hab ich hier wohl einen Booklet-Style in dem Umwandlungsprozess (mit) drinne gehabt - so jedenfalls meine Vermutung.

https://helpx.adobe.com/acrobat/using/ways-print-pdfs.html


1625608196349.png



was meint ihr denn? Dieser Umstand brachte mir in der Paginierung so eine Reihenfolge, die total messy ist.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: TechFA
Die Seitennummerierung von PDFs kann man z.B. mit BeCyPDFMetaEdit anpassen.
 
  • Gefällt mir
Reaktionen: tarifa
Puh, das sieht nach viel Aufwand aus. Ich scanne Bücher/Aufsätze inzwischen mit dem Handy und der App „Scanner Pro“. Das geht wesentlich schneller als seinerzeit mit dem Flachbett-Scanner, und die Ergebnisse sind qualitativ auch besser. Hinterher als PDF exportieren, und fertig.

Gruß Jens
 
  • Gefällt mir
Reaktionen: tarifa
Hast du das vorher schon mal gemacht? Was ist das für ein Buch, ich meine vom Format her, Bindung und wie viele Seiten hat es?
Womit Du rechnen musst ist, dass zur Buchmitte hin der Scan nicht mehr gerade ist. Die Seite ist verzerrt, gekrümmt, lesbar aber keine einwandfreie Zeile. Jedenfalls wenn man das Buch ganz lässt. Deshalb wären die Überlegungen mit der Chain schon dahin.
Ergänzung ()

Ich habe gerade heute so ein Projekt beendet. Hier ein Beispiel für die Krümmung:

Grimm-_20200930_0014.png

Über Qualitätsverlust musst Du dir keine Gedanken machen. Ich hatte 600 dpi für S/W genommen. Das machte die Bilder nur unnötig groß. 300 dpi genügen. Ich habe direkt in PNG gescanned.
Oder gleicht Dein Scanner die Krümmung automatisch aus?Grimm-_20200930_0014.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: TechFA und tarifa
Geh in die Bibliothek deines Vertrauens. Die haben für gewöhnlich Buchscanner.
 
  • Gefällt mir
Reaktionen: tarifa und Samez
Hallo und guten Abend Amaoto, Jens, und Flowerchild,
Hallo Dominicus1165,

wow - vielen Dank für Eure sooo schnelle Antwort. Großes SORRY für den superlangen Text. Ihr merkt wie doll das Ganze Zeit, Energie geschluckt hat.


Die Seitennummerierung von PDFs kann man z.B. mit BeCyPDFMetaEdit anpassen.

Ich werde mir das Tool mal ansehen. Wie oben beschrieben hab ich das auf Linux weiterverarbeitet - mit Mupdf usw. (vgl. auch unten)
Aber ich schaue mir dein Tool mal an. Auf alle Fälle. Denn das hört sich gut an.


Jens:
Puh, das sieht nach viel Aufwand aus. Ich scanne Bücher/Aufsätze inzwischen mit dem Handy und der App „Scanner Pro“. Das geht wesentlich schneller als seinerzeit mit dem Flachbett-Scanner, und die Ergebnisse sind qualitativ auch besser. Hinterher als PDF exportieren, und fertig.
Gruß Jens


Flowerchild:
Hast du das vorher schon mal gemacht? Was ist das für ein Buch, ich meine vom Format her, Bindung und wie viele Seiten hat es? Womit Du rechnen musst ist, dass zur Buchmitte hin der Scan nicht mehr gerade ist. Die Seite ist verzerrt, gekrümmt, lesbar aber keine einwandfreie Zeile. Jedenfalls wenn man das Buch ganz lässt. Deshalb wären die Überlegungen mit der Chain schon dahin.

ja ich hab das bereits schon einmal gemacht.

ich hatte zunächst gedacht dass MuPdf und diese Tools die ich eingesetzt habe allesamt genial sind.

ABER irgendwie bin ich mit der Paginierung dann voll daneben gelegen: vgl. auch hier:


a. wo ich alles am Anfang besprochen habe https://de.openoffice.info/viewtopic.php?f=16&t=74651
und noch glaubte, dass ich das mit der Paginierung gut in den Griff bekomme. -...

und...

b. wo ich den Paginieungsunfall zu klären versuchte: https://stackoverflow.com/questions...is-somewhat-messed-up-no-more-linearity-but-1

Zwischenfazit: Ich glaube, dass es etwas mit sogenannten Booklet-Features (wie man auch immer dazu sagt) zu tun hat.

@Flowerchild - danke für deine Ergänzung. Ich bin nicht sicher, ob es bei dem Canon Scanner zu solchen Korrekturen kommt. Das muss ich mal nachsehen.

Ich werde auf alle Fälle Eure Tools, Tipps und Empfehlungen heute Abend mal genauer ansehen.

@Dominicus1165: An diese Idee, einfach einen Scanner in einer Bibliothek zu vewenden hab ich noch nicht gedacht. Aber die Idee hoert sich gut an.

Ps hab nachgesehen: Wir haben in unserer Uni-Bibliothek einen Zeutschel-Aufsichts-Scanner:




1625609069912.png

vgl. https://www.uni-heidelberg.de/md/fak/wiso/bibliothek/scananleitung-buchscanner.pdf

ich stelle fest: Dieser Thread ist superwertvoll für mich, da ich glaube dass ich ein Problem jetzt lösen kann

Viele Grüße
 
Zuletzt bearbeitet:
tarifa schrieb:
-PDF - hier wird vielfach einfach nur eine Rastergrafik in eine PDF-Datei als Inhalt eingebettet - Das Verfahren erschwert die spätere Verarbeitung.
-TIF ist (optisch) verlustfrei; aber eine sehr große Dateigröße
-JPG ist verlustbehaftet, da es i.d.R. komprimiert wird (vgl. Artefakte) - kleine Dateigröße
Vielleicht sollte man dazu etwas sagen....

JPEG - immer Farbe
TIFF - Auch SW möglich und es lassen sich durchaus mit entsprechender Komprimierung kleine Dateien erzeugen. Vorteil dabei, alle Komprimierungsmethoden sind verlustlos.
1625601552699.png

https://en.wikipedia.org/wiki/TIFF#Compression
PDF - Containerformat - darin werden dann letztlich die TIFF oder JPG eingebettet

Wenn du jetzt reine Bücher ohne Bilder einscannen willst, würde sich TIFF auf jeden Fall dazu anbieten, jegliche Bearbeitungsschritte bei einem JPEG Bild verschlechtern die Qualität. Wenn du jetzt SW oder Graustufen scannst, werden die erzeugten Bilddateien möglicherweise sogar kleiner.

Zum Rest kann ich wenig sagen, da du offensichtlich Linux einsetzt. Für Windows gibt es unzählige Hardware und Software zu genau dem Zweck.
 
  • Gefällt mir
Reaktionen: tarifa
PDF sollte eigentlich nicht als "scanformat" genutzt werden - dafür ist es eigentlich nicht erfunden worden. - Im Internet werden Bilder oder Texte auch nicht oft als PDF ausgeliefert.

TIF und dann "Algorithmen" drüber laufen lassen : tesseract OCR mit GUI Bedienung ; tesseract Improve Quality - OCR mit verschiedenen KI Ansätzen, usw.


flowerchild69 schrieb:
Womit Du rechnen musst ist, dass zur Buchmitte hin der Scan nicht mehr gerade ist. Die Seite ist verzerrt, gekrümmt, lesbar aber keine einwandfreie Zeile. Jedenfalls wenn man das Buch ganz lässt.
Es gibt vermutlich auch Software die das automatisch entzerrt.
"A model-based book dewarping method using text line detection" (Dewarp = Entzerren) ist von 2007.
Die automatischen KI Bildbearbeiter / Filter sollten so etwas Einfaches auch können.

Wenn in der Datei keine Metainformation / gescannter Text vorkommen soll, dann reicht eine .zip / gepackte Datei mit komprimierten JPG, 2farbigen / Graustufen. Zur not können die dateien dann NACH der Bearbeitung in den PDF Container verpackt werden.


Bei der Paginierung problemen in der "Scan-Pipeline" kannst du doch vlt. besser Ausgabe-Verzeichnisse nutzen bzw. die Dateien nach Datum sortieren - bei einer Batch / Stapelbearbeitung sind die Dateistempel der erzeugten Dateien eigentlich immer ansteigend - Dateien automatisch mit Datum / Zeitstempel umbenennen usw.

edit: stackexchange: "Best way to flatten a curled photographed book photograph?"
 
  • Gefällt mir
Reaktionen: tarifa
lokon schrieb:
Es gibt vermutlich auch Software die das automatisch entzerrt.
Klar! Die Frage wäre nur wie es unter Linux aussieht.
 
Wenn ich bei mir an der Schule ein ganzes Buch scannen darf, dann renne ich erst einmal in den Kunstsaal an die elektrische Papierschneidemaschine und trenne da sauber den Buchrücken ab.
(ja, das Buch als solches ist dann zerstört, das ist das Manko dabei - ist aber vorher schon bekannt!)
Anschließend sind die Seiten alle gleich groß, eben und einzeln vorliegend (keine Doppelseiten mehr)
Das Paket kommt dann in den ADF der großen Scanner/Kopierer und zieht es mir als PDF auf den USB-Stick. Je nach dem, ob Bild, Text, Farbe, ... das muss man dann entsprechend wählen. Das Allignment und Durchschimmern/Seitenfärbung kann das Gerät auch schnell und einfach korrigieren.

Für OCR und Co gibt es dann den PC.

PS: Solche Schneidemaschinen hat jeder CopyShop. Einfach mal umsehen und fragen. Ist nur ein Gedanke, um vieles "mechanische" zu umgehen.
 
  • Gefällt mir
Reaktionen: tarifa
Hallo xexex hallo Lokon, hallo Bunkeropfer, :)



vielen Dank für Eure Rückmeldungen @xexex : ich kann das ganze auch auf Windows weiterbearbeiten. Das ist kein Problem. Hab hier auch ein Win-Rechner stehen.

Zu den Formaten & den hier naheliegenden Verfahren - die um PDF gewissermaßen "herumfahren".
Klar - leuchtet ein - Und wenn ich das in anderen Formaten mache - z.B. TIFF dann wäre das wohl besser.


Wie oben schon gesagt: es ist ein Canon C 5235i

bei meinem ersten Durchgang - da habe ich schlicht die vier 100 Seiten Tranchen in PDF "gebaut" und dann auf meinen Desktop geschickt.

Also - so wie ich euch verstehe - sollte ich schon beim Scannen hier in die Chain (noch) eingreifen - und eben nicht schlicht in diesen PDF-Weg (diese Methode ) einsteigen.

vgl das Canon-Manual: https://oip.manual.canon/USRMA-0072-zz-CS-deDE/contents/CS5255_scan1312_whatthismachinecando.html


1625602931101.png




@Bunkeropfer - Dein Verfahren ist ja cool. Das kann ich leider nicht so machen. ... Das Buch kann ich nicht zerlegen.

Aber sonst sind die Tipps cool.
 
tarifa schrieb:
Zu den Formaten & den hier naheliegenden Verfahren - die um PDF gewissermaßen "herumfahren".
Klar - leuchtet ein - Und wenn ich das in anderen Formaten mache - z.B. TIFF dann wäre das wohl besser.
Es spricht ja nichts gegen PDF, aber dann nicht PDF mit eigebetteten JPEG Bildern, sondern PDF mit eingebetteten TIFF Bildern. Wie schon gesagt ist PDF ein Containerformat.
 
  • Gefällt mir
Reaktionen: tarifa
Ich kann mich da nur @lokon anschliessen.
Mit tesseract habe ich so ziemlich alles was wir in der Uni an gesanntem material becommen haben nutzbar & durchsuchbar gemacht. Das Projekt wurde inzwischen von Google uebernommen und wird dort intern fuer google Books verwendet.


Das zertrennen gescannter doppelseiten kannst du gut mit imagemagick machen
 
  • Gefällt mir
Reaktionen: tarifa
Zurück
Oben