Bücher aus OCR Software weiterverarbeiten - Bilder anordnen

Mr. Brooks

Lt. Commander
Registriert
Aug. 2011
Beiträge
1.441
Hallo,

ich jage derzeit einige meiner als PDF vorliegenden Bücher durch Abbyy Finereader und erstelle mit am Ende eBooks im Format ePUB. Abbyy ist recht zuverlässig bei der Erkennung von Text (abhängig von der Qualität der Quelle), hat aber Probleme bei der Positionierung der Bilder, wenn die nicht die ganze Seitenbreite einnehmen und vom Text umflossen werden. Abbyy macht einfach alle Bilder auf volle Breite. Bisher hab ich das ganze als ePUB exporiert und dann in Calibre Editor weiterverarbeitet. Wenn die Bücher umfangreicher werden macht das Gefummel im HTML-Code aber keinen Spaß.

Besser wäre es, wenn man direkt eine grobe Anordnung der Bilder machen könnte - also die Bilder per Maus so im Dokument positionieren, wie sie am Ende sein sollen. Bildtexte unter dem Bild) werden einfach als "normaler" Text erkannt, auch die sollte man dem Bild "zuordnen" können.

Irgendwas in diese Richtung müsste es doch geben? Abbyy kann das leider nicht selbst.
 
Verzeihung…
Aber bin ich richtig orientiert, dass E-Book-Reader von Haus aus PDF können?
Warum diese Maßnahme? Wenns um Speicherplatz geht mag man PDFs uber Stapelverarbeitung evtl. weiter eindampfen können.
Denn ein E-Book-Reader kann doch vom Prinzip her gar nicht mehr als ein »Bild« darzustellen das zufällig Buchstaben beinhaltet. Oder verlaufe ich mich an der Problematik des live Skalierens (plus Umbrechens) allein des Textanteils? Aber das würde doch wieder ein Layout beeinflussen?!
→ Ich glaube einfach nicht an OCR. Zumindest (und ich habe da einiges beobachtet) bei so einer Massenabfertigung in einer Güte wie ich sie verlangen würde.
CN8
 
cumulonimbus8 schrieb:
Aber bin ich richtig orientiert, dass E-Book-Reader von Haus aus PDF können?
Die PDFs sind vielleicht nur eine "Bildersammlung" - also ohne "Text-Layer" (kein Ausgabe bei pdftotext bzw. ähnlichen Tools). Oder der Text-Layer ist unbrauchbar (Ausgabe=Müll).
"gute" PDFs sind dann zB PDF/A und barrierefrei (pdf checker: PAC)

PDF Live skalieren kann problematisch sein - wenn der Reader nur für "text" bücher gedacht ist (kein "Multimedia-Tablet"). PDF ist ein starres Format (Druckvorstufe) und PDF von Bücher / Magazinen gibt es in verschiedensten Formaten. Lesen mit ständigen Zoom, Pinch-Gesten, Scrollen auf dem langsamen Ebook-Reader nervt dann.
Das Skalieren von PDFs kann Probleme bereiten, weil das PDF eine Sammlung von Objekten (zB Vektor-Linien, Pixel-Bilder, eingebettete Daten wie Schriftarten) ist und das Aussehen (Druckvorstufe / digitaler Druck) erst Live in einer bestimmten Auflösung (originalgetreu) berechnet wird.
Bei Epub/html ist das Ergebnis dagegen nicht so starr festgelegt.
 
eBooks sind (normal) keine PDFs - obwohl man vermutlich jedes "elektronisch" lesbare Dokument irgendwie als eBook bezeichnen kann. Mit eBook meint man meist das Format "ePUB". Das ist letztlich HTML in einem Archiv. Aber eben echter Text. Der kann scaliert werden und neben einem Tablet auch auf einem Handy dargestellt werden. Der Text passt sich der Bildschirmgröße an.

Viele PDFs sind auf einem Handy überhaupt nicht produktiv zu lesen, weil die eben dort in der gleichen Breite dargestellt werden wie auf dem Tablet. Meine gescannten Bücher sind von der Qualität her vollkommen ausreichend damit die OCR Software 99% sauber erkennt, aber nicht gut genug für angenehmen Lesen, weil der Text eben doch leicht "verwischt". Die besser zu scannen dauert lange und resultiert in mehreren 100MB für ein eBook.
 
Dann lag ich mit meiner Befürchtung ums Skalieren wenigstens richtig.

Aber im Prinzip beantwortest du dir deine Frage und deine Problematik selbst.

PDFs sind eben layoutet. Wenn das auf A4 ist dann muss jedes Lese=Anzeige-Gerät diese(s) A4 darstellen können. Handgroße E-Book-Reader schaffen das nicht - außer, rein theoretisch, so fein aufgelöst (600, 1200 DPI 1:1 optisch geschrumpft…) dass dann das Auge streikt.

Also musst du das Layout zerreißen um den Text passend umbrochen zu bekommen. Aber dann passt nun eben kein Bild mehr. Zumindest nicht dahin wo es mal bei der PDF gedacht war.

Das kann man übersetzen mit: du hast keine Chance außer deine Konversionen (via OCR… Oder Strg+A Strg+C - Strg+V) per Hand neu zu arrangieren.
Wenn du die PDF-Quelle hättest wäre es noch denkbar, dass sich diese unmittelbar als ePUB auswerfen ließe. Aber dieses (unsägliche ewige Betrachtungs/Transfer-Format PDF mit dem man arbeiten will wie mit DOC…) gibt diese Freiheit nicht her wenn es eben eine »fertige« PDF ist und kein Bearbeitungsprogramm (Acrobat..?) so was makrokontrolliert schaffen kann.

Du hast ein Betrachte-Format - aber leider in der falschen Größenordnung. Und Direktschrumpfen fällt flach.
Selbst einen ordinären »Schmierzettel« (vornehm: Einkaufs- und ToDo-Liste) auf DCOX-Basis musste ich in der Breite anpassen um ihn als Google-Format auf dem Android handhaben zu können.

CN8
 
Ich hab ka ein OCR Programm, abbyy finereader und das tut genau das. Es gibt da aber keine Möglichkeit Bilder einfach per Maus zu ordnen. Die werden da so angeordnet wie abbyy sie erkennt. Das ist aber leider oft nicht gut.
 
Du kannst in fine reader die objekte schon selbst anordnen. Aber die Autoerkennung ist oft zuverlässiger.

Du kannst nur:
Text
Bild
Text
so in einem ebook sinvoll formatieren. Alles andere wird problematisch.
Fine Reader kann dein Problem nicht lösen es ist einfach nicht dafür geschrieben.
Sei froh das du den Text nur Korrekturlesen und nicht abtippen musst.
 
Anordnen ist etwas anderes als erkennen. Ein als Bild erkanntes element kann dennoch an der komplett falschen stelle eingefügt werden.

Scheinbar geht es nur über calibre. Sigil ist calibre sehr ähnlich.
 
Zurück
Oben