@nutzerbename
Jeder Dokumentenscanner hat eine eigene Software, in der die OCR Funktion integriert ist.
ABER ich habe festgestellt, dass die Fehlerrate geringer ist, wenn ich ohne OCR scanne und die PDF über mein gekauftes
PDF-XChange Pro nachträglich mit OCR durchsuchbar mache.
Ich habe allerdings einen sehr alten Dokumentenscanner von Canon! Ein modernes Gerät mit ggf. moderner Software und vielleicht anderer Marke könnte besser sein.
Wie ich dabei vorgehe, wenn mir das Buch wichtig ist:
- mit einem Cuttermesser den Einband herausschneiden
- Wichtig: Das Buch fest zusammenpressen (z.B. starke Papierpresse, günstige Papierpresse, 2x Schraubzwinge, etc.) (die Schraubzwingen reichen tatsächlich aus)
- Buchrücken abschneiden (vorher am Rand markieren, wo der Text beginnt)
- lose Seiten (je 50-150) in den Dokumentenscanner legen
- Film gucken
- lose Seiten (je 50-150) in den Dokumentenscanner legen
- Film gucken
- usw...
- in der Software vor dem Speichern grob prüfen, ob alles gut aussieht (Seitenzahl übereinstimmt)
- als PDF und/oder ePub speichern oder ggf. mit Calibre oder PDF-XChange nachbearbeiten (OCR oder Titelbild, Metadaten wie Autor, etc.)
Was du mit den PDF oder ePub machen kannst, hängt immer von deinem Gerät oder der Software ab. Also ja, mit einem Kindle wirst du auch lesen, markieren, etc. können.
Du musst aber damit rechnen, dass du Fehler durch OCR haben wirst, da es nicht perfekt ist. ~1% der Wörter könnten fehlerhaft sein. Manchmal wird aus einem "ö" ein "o" oder aus einem "i" ein "l".
Je höher die Qualität (dpi) des Scanners und je größer die Schrift, desto geringer die Fehlerrate, allerdings dauert es auch entsprechend länger.
Ich stelle immer die maximale Qualität ein und muss pro Blatt (beidseitiger Scan) ca. 30 oder 40 Sekunden warten.
Mit der geringsten Qualität zieht es die Blätter in 2 Sekunden durch. Das eignet sich für Briefe, Rechnungen, etc. die in Schriftgröße >10 und schwarz auf weiß gedruckt wurden. Bücher mit kleiner Schrift sollten mindestens mit 300 dpi, besser >400 dpi gescannt werden.
----
Das Abschneiden funktioniert mit einer kleinen Kreissäge am schnellsten und saubersten.
Perfekt wäre es natürlich durch eine industrielle Maschine, welche es presst und in einem Schnitt erledigt. Aber wer hat das schon?
Alternativ kannst du mit dem Cuttermesser jeweils 5-10 Seiten pro Schnitt trennen und immer in dieselbe Ritze tiefer schneiden. Das Ergebnis dabei wird sein, dass die Seiten etwas unsauber, rau und leicht schief geschnitten werden, was aber mit der integrierten Software kein Thema ist, weil diese die Seiten und die Schnittstelle begradigt und ggf. Lücken mit Farbe (schwarz, weiß, etc.) befüllt. Man wird aber sehen, dass da korrigiert wurde.
Was die Software nicht kann, aber PDF-XChange, ist jeder Seite an genau dieser Stelle einen rechteckigen Balken zu verpassen, welche diesen Effekt nochmals verringert. Eigentlich ist das aber völlig unnötig... zumindest mache ich es nie.
Dünne Bücher mit <200 Seiten schneide ich mit einem Cuttermesser. Das kostet ca. 5 Minuten, wenn es sauber sein soll. Dicke Schinken mit einer Kreissäge.
Falls du es mit einem Cuttermesser probieren willst, empfehle ich dringend an irgend einem unwichtigen Buch zu testen. Das erste Buch wird grauenhaft und schief geschnitten sein! Das braucht ein wenig Übung.
Ab dem Zweiten war es bei mir aber wirklich sauber.
Je weniger Kraft du einsetzt und je öfter du schneidest, desto besser wird das Ergebnis.
Gute Bücher loche ich anschließend und bewahre sie in einem A5 Ringordner auf.
Wenn man sich die Mühe macht, kann man sie auch wieder binden.
Zum rechtlichen Aspekt:
Solange du es nur für dich selbst machst, ist es legal.
Du darfst es natürlich nicht öffentlich teilen und schon gar nicht verkaufen.
P.S:
Es gibt auch Smartphone Apps, welche alle x Sekunden oder nach dem Umblättern ein Foto von zwei Seiten machen, es ausschneiden, begradigen es mit OCR speichern.
Meine Erfahrung damit (mit Premium Smartphones) ist, dass die alle total schlecht und das OCR extrem fehleranfällig ist. Außerdem habe ich keine Lust ewig zu sitzen und Seite für Seite umblättern zu müssen, als wäre ich zu einer Strafarbeit verdonnert worden.