KI für Texterkennung gesucht...

mischaef · 18. Dezember 2025

Nabend allerseits,

ich bin auf der Suche nach einer KI, mit der ich gescannte Texte mittels OCR in formatierbaren Text umwandeln kann. Gemini ist hier bei der Erkennung zwar sehr gut, haut mir aber alle Texte in Blocksatz raus, sprich, reiht einen Satz an den anderen und achtet oftmals nicht auf Zeilenumbrüche, also wann im Text ein Satz in einer neuen Zeile anfängt. Damit geht die komplette Formatierung verloren, was sehr schade ist.

ChatGPT kann ich in der Hinsicht gar nicht gebrauchen, da die KI auch hier zu oft halluziniert und Dinge hinzuerfindet, die so nicht im Text stehen.

Kennt jemand zufällig eine KI, die dafür genutzt werden kann und die zuverlässig arbeitet? Auch gerne lokal, wenn keine Nvidia-Karte benötigt wird.

Besten dank schon mal

Michael

Rickmer · 18. Dezember 2025

Warum umbedingt eine KI?

OCR ist was ich ein 'solved problem' bezeichnen würde, wenn's nicht um die Handschrift vom Arzt geht. Das geht lightweight genug, dass mein Scanner von 2016 das kann.

Wie sieht eigentlich dein Input aus? PDFs? Bild-Dateien?

Keuleman · 18. Dezember 2025

Wenn Du es wild magst: habe mir selber mal was zusammengebaut aus Python und Tesseract plus Poppler.

mischaef · 18. Dezember 2025

@Rickmer
Das stimmt so leider nach wie vor nicht. Selbst Fine Reader macht bei alten Büchern viele Fehler, dass da mal ein "a" als eine "4" oder so abgebildet wird. Oder wenn Verschmutzungen vorhanden sind. Da war bei mir immer viel Nachbearbeitung nötig. Da ist die KI deutlich schneller, wenn mal die Ausgabe funktioniert.

@Keuleman
Es soll nur funktionieren und einigermaßen bequem zu bedienen sein. Am besten Bilder oder PDF rein und Text raus...^^

Keuleman · 18. Dezember 2025

Dann PDF24 und dort das OCR :-)

Rickmer · 18. Dezember 2025

In dem Fall würde ich mal hier anfangen:
https://playground.roboflow.com/ranking/ocr?ref=blog.roboflow.com

Claude 3 Haiku soll demnach ziemlich performant und gleichzeitig brauchbar sein. Kostet halt Geld weil closed source.

Oder mal sowas wie Amazon Rekognition oder Google Vision OCR versuchen. Das ist dediziertes OCR und sollte daher für Bilder rein, Text raus besser zu gebrauchen sein.

Oder mal schauen ob rauszufinden ist, was für Software verwendet wird von den Projekten, die Bücher / Bibliotheken digitalisieren.

Wenn's lokal laufen soll: hier mal reinschauen... https://github.com/tesseract-ocr/tesseract
Dafür gibt's auch GUIs: https://tesseract-ocr.github.io/tessdoc/User-Projects-–-3rdParty.html

Snapuman · 18. Dezember 2025

Rickmer schrieb:
Warum umbedingt eine KI?

OCR ist was ich ein 'solved problem' bezeichnen würde, wenn's nicht um die Handschrift vom Arzt geht. Das geht lightweight genug, dass mein Scanner von 2016 das kann.

Ich dächte grade Tabellen und andere wilde/freie Formatierungen sind für klassisches OCR nach wie vor noch ein Problem...

BFF · 18. Dezember 2025

Kann das nicht deepl? @mischaef

Aber warum ueberhaupt KI? OCR kann doch fast jede stupide lokale Software.
PDF24, Adobe, FlexiPDF, NAPS2 und wie sie alle heissen.
Selbst beim Abfotografieren mit TatschFone™ bekommst Du in der Regel den Text schon mit wenn faehige App in PDF ablegt.

Keuleman · 18. Dezember 2025

Tabellen sind echt so eine Sache, da zerschiesst sich gerne die Formatierung heillos. Kann schon verstehen, da mal nach einer KI zu fragen. Aber mit PDF24 schon einige harte Nüsse geknackt bekommen, auch Tabellen. Lohnt imo einen Blick.

mischaef · 18. Dezember 2025

@BFF
Siehe oben, denn dem ist nicht so. Ich habe Jahrelang mit Finereader gearbeitet und weiß daher um die Probleme solcher Software mit alten Büchern. Das mag bei aktuellen Text gut funktionieren, bei meinen war immer reichlich Nachkorrektur nötig. Bei Gemini funzt zumindest die Erkennung sehr gut, wenn auch die Umsetzung später massive Probleme macht.

Claude ist zudem raus. Der meint immer, dass meine Texte handschriftlich sind - obwohl in Druckbuchstaben. Zudem haluziniert er auch.

Snapuman · 18. Dezember 2025

@Keuleman
Da jetzt schon der zweite hier PDF24 als Empfehlung in den Raum wirft hab ich mal eben nachgesehen (dachte das sei ein paid online tool).
Lokal und kostenlos... ist das auch ne empfehlung als genereller PDF Betrachter und ab und an was in nem PDF bearbeiten? Hab dafür bisher seit Jahren "PDF-XChange Editor" in der free Version laufen...

mischaef · 18. Dezember 2025

Hab gerade mal PDF24 Online ausprobiert....da waren einige dicke Fehler in meinem Text drinn...

Keuleman · 18. Dezember 2025

@Snapuman Nutze das privat nur noch. Erst etwas fummelig aber kann tatsächlich alles (OCR, Bilder zu PDF, Komprimieren...), was ich so brauche. Wird regelmässig geupdatet, ist fix und ja, komplett offline nutzbar. Ich bin zufrieden!

Snapuman · 18. Dezember 2025

ok Danke. Habs grad mal runtergeladen, werd ich mir mal anschauen. Aber leightweight isses nicht grad, der installer sind knapp 500MB ^^ wobei PDF-Xchange sind auch knapp 400... ok

AlanK · 18. Dezember 2025

Ich würde auch bei der Hardware ansetzen.
Ist der Scanner anständig? Sind die Einstellungen des Scanners gut gewählt?
Ist das schwarze Schrift auf weißem Hintergrund?
Oder graues, braunes, Altpapier?

Denke OCR kann lokal einwandfrei erfolgen und ist nahezu fehlerfrei.

Zumindest mit meinem ScanSnap (5 Jahre+ alt) und Abby bekomme ich 1A Ergebnisse.

BFF · 18. Dezember 2025

Dann leg doch einfach mal ein unverwerfliches Dokument hier ab im Thread. @mischaef
Dann kann man selbst mal durchprobieren.

Hast Du jemals den Import von PDF in Excel probiert? Das soll ja mittlerweile auch funktionieren.

mischaef · 18. Dezember 2025

@AlanK
Epson Foto-Scanner, 300 DPI gescannt. Ja, die Scanns sind vernünftig, Gemini kann damit ja wunderbar arbeiten. Und nein, Abby liefert hier immer wieder Fehler und benötigt viel Nachbearbeitung. Die Bücher sind aber auch teilweise 50 Jahre alt.

@BFF
Ich weiß nicht ob das wegen Urheberrecht und so hier geht. Da will ich meine Chefs nicht in eine Blöde Situation bringen...^^

Habe gerade mal Finereader 16 ausprobiert. Naja...sehr Fehlerbehaftet...

"l>A'. I RSTE KAPITEL " soll "DAS ERSTE KAPITEL" sein...
"einen alten Zir» kir.wagen" soll "einen alten Zirkuswagen" sein...
"knall» bimfen Anstrich" soll "knallbunten Anstrich" sein....

Das zieht sich so durch das ganze Buch...da scheint die "KI" nicht wirklich zu funzen. Gemini erkennt das alles wunderbar.

madmax2010 · 18. Dezember 2025

Der Standard Ist eigentlich tesseract. Damit habe ich im Studium jede Menge Bücher Die wir fix mit dem Handy fotografiert haben und durchbarr brauchten OCRd nur formeln korrektes latex zu bekommen war fummelig.

Ansonsten gemini 3 pro.. Erheblich weniger token als Claude und bessere Ergebnisse

Mein stack wäre aber eher erst klassisches ocr und dann mit anderen Tools formatieren

Ergänzung (19. Dezember 2025)

mischaef schrieb:
Ich weiß nicht ob das wegen Urheberrecht und so hier geht. Da will ich meine Chefs nicht in eine Blöde Situation bringen...^^

Aus dem Aspekt, höchstens APIs. Auf keinen Fall die Web interfaces

smuper · 19. Dezember 2025

KI ist da auch nicht besser, wirst du noch merken. ChatGPT hat bei mir auch zig Fehler bei Umlauten fabriziert. Von "Eszett" fangen wir besser gar nicht an. (Letzter Versuch November)

NJay · 19. Dezember 2025

Wie wäre es mit einer Kombination? Nehme erstmal klassisches OCR und lass dann eine KI drüber laufen um potentielle fehler zu fixen.

KI für Texterkennung gesucht...

Kassettenkind

Silent-Fanatiker Pro

Lt. Junior Grade

Kassettenkind

Lt. Junior Grade

Silent-Fanatiker Pro

Lieutenant

¯\_(ツ)_/¯

Lt. Junior Grade

Kassettenkind

Lieutenant

Kassettenkind

Lt. Junior Grade

Lieutenant

Vice Admiral

¯\_(ツ)_/¯

Kassettenkind

Fleet Admiral

Rear Admiral

Vice Admiral Pro

Ähnliche Themen