KI für Texterkennung gesucht...

mischaef

Kassettenkind
Teammitglied
Registriert
Aug. 2012
Beiträge
7.199
Nabend allerseits,

ich bin auf der Suche nach einer KI, mit der ich gescannte Texte mittels OCR in formatierbaren Text umwandeln kann. Gemini ist hier bei der Erkennung zwar sehr gut, haut mir aber alle Texte in Blocksatz raus, sprich, reiht einen Satz an den anderen und achtet oftmals nicht auf Zeilenumbrüche, also wann im Text ein Satz in einer neuen Zeile anfängt. Damit geht die komplette Formatierung verloren, was sehr schade ist.

ChatGPT kann ich in der Hinsicht gar nicht gebrauchen, da die KI auch hier zu oft halluziniert und Dinge hinzuerfindet, die so nicht im Text stehen.

Kennt jemand zufällig eine KI, die dafür genutzt werden kann und die zuverlässig arbeitet? Auch gerne lokal, wenn keine Nvidia-Karte benötigt wird.

Besten dank schon mal

Michael
 
Warum umbedingt eine KI?

OCR ist was ich ein 'solved problem' bezeichnen würde, wenn's nicht um die Handschrift vom Arzt geht. Das geht lightweight genug, dass mein Scanner von 2016 das kann.

Wie sieht eigentlich dein Input aus? PDFs? Bild-Dateien?
 
  • Gefällt mir
Reaktionen: cartridge_case, ScareEm, Winston90 und 2 andere
Wenn Du es wild magst: habe mir selber mal was zusammengebaut aus Python und Tesseract plus Poppler.
 
@Rickmer
Das stimmt so leider nach wie vor nicht. Selbst Fine Reader macht bei alten Büchern viele Fehler, dass da mal ein "a" als eine "4" oder so abgebildet wird. Oder wenn Verschmutzungen vorhanden sind. Da war bei mir immer viel Nachbearbeitung nötig. Da ist die KI deutlich schneller, wenn mal die Ausgabe funktioniert.

@Keuleman
Es soll nur funktionieren und einigermaßen bequem zu bedienen sein. Am besten Bilder oder PDF rein und Text raus...^^
 
In dem Fall würde ich mal hier anfangen:
https://playground.roboflow.com/ranking/ocr?ref=blog.roboflow.com

Claude 3 Haiku soll demnach ziemlich performant und gleichzeitig brauchbar sein. Kostet halt Geld weil closed source.

Oder mal sowas wie Amazon Rekognition oder Google Vision OCR versuchen. Das ist dediziertes OCR und sollte daher für Bilder rein, Text raus besser zu gebrauchen sein.

Oder mal schauen ob rauszufinden ist, was für Software verwendet wird von den Projekten, die Bücher / Bibliotheken digitalisieren.

Wenn's lokal laufen soll: hier mal reinschauen... https://github.com/tesseract-ocr/tesseract
Dafür gibt's auch GUIs: https://tesseract-ocr.github.io/tessdoc/User-Projects-–-3rdParty.html
 
  • Gefällt mir
Reaktionen: c9hris und mischaef
Rickmer schrieb:
Warum umbedingt eine KI?

OCR ist was ich ein 'solved problem' bezeichnen würde, wenn's nicht um die Handschrift vom Arzt geht. Das geht lightweight genug, dass mein Scanner von 2016 das kann.
Ich dächte grade Tabellen und andere wilde/freie Formatierungen sind für klassisches OCR nach wie vor noch ein Problem...
 
Kann das nicht deepl? @mischaef

Aber warum ueberhaupt KI? OCR kann doch fast jede stupide lokale Software.
PDF24, Adobe, FlexiPDF, NAPS2 und wie sie alle heissen.
Selbst beim Abfotografieren mit TatschFone™ bekommst Du in der Regel den Text schon mit wenn faehige App in PDF ablegt.
 
Tabellen sind echt so eine Sache, da zerschiesst sich gerne die Formatierung heillos. Kann schon verstehen, da mal nach einer KI zu fragen. Aber mit PDF24 schon einige harte Nüsse geknackt bekommen, auch Tabellen. Lohnt imo einen Blick.
 
  • Gefällt mir
Reaktionen: Snapuman
@BFF
Siehe oben, denn dem ist nicht so. Ich habe Jahrelang mit Finereader gearbeitet und weiß daher um die Probleme solcher Software mit alten Büchern. Das mag bei aktuellen Text gut funktionieren, bei meinen war immer reichlich Nachkorrektur nötig. Bei Gemini funzt zumindest die Erkennung sehr gut, wenn auch die Umsetzung später massive Probleme macht.

Claude ist zudem raus. Der meint immer, dass meine Texte handschriftlich sind - obwohl in Druckbuchstaben. Zudem haluziniert er auch.
 
@Keuleman
Da jetzt schon der zweite hier PDF24 als Empfehlung in den Raum wirft hab ich mal eben nachgesehen (dachte das sei ein paid online tool).
Lokal und kostenlos... ist das auch ne empfehlung als genereller PDF Betrachter und ab und an was in nem PDF bearbeiten? Hab dafür bisher seit Jahren "PDF-XChange Editor" in der free Version laufen...
 
Hab gerade mal PDF24 Online ausprobiert....da waren einige dicke Fehler in meinem Text drinn...
 
@Snapuman Nutze das privat nur noch. Erst etwas fummelig aber kann tatsächlich alles (OCR, Bilder zu PDF, Komprimieren...), was ich so brauche. Wird regelmässig geupdatet, ist fix und ja, komplett offline nutzbar. Ich bin zufrieden!
 
ok Danke. Habs grad mal runtergeladen, werd ich mir mal anschauen. Aber leightweight isses nicht grad, der installer sind knapp 500MB ^^ wobei PDF-Xchange sind auch knapp 400... ok
 
Ich würde auch bei der Hardware ansetzen.
Ist der Scanner anständig? Sind die Einstellungen des Scanners gut gewählt?
Ist das schwarze Schrift auf weißem Hintergrund?
Oder graues, braunes, Altpapier?

Denke OCR kann lokal einwandfrei erfolgen und ist nahezu fehlerfrei.

Zumindest mit meinem ScanSnap (5 Jahre+ alt) und Abby bekomme ich 1A Ergebnisse.
 
  • Gefällt mir
Reaktionen: konkretor und cartridge_case
Dann leg doch einfach mal ein unverwerfliches Dokument hier ab im Thread. @mischaef
Dann kann man selbst mal durchprobieren.

Hast Du jemals den Import von PDF in Excel probiert? Das soll ja mittlerweile auch funktionieren.
 
@AlanK
Epson Foto-Scanner, 300 DPI gescannt. Ja, die Scanns sind vernünftig, Gemini kann damit ja wunderbar arbeiten. Und nein, Abby liefert hier immer wieder Fehler und benötigt viel Nachbearbeitung. Die Bücher sind aber auch teilweise 50 Jahre alt.

@BFF
Ich weiß nicht ob das wegen Urheberrecht und so hier geht. Da will ich meine Chefs nicht in eine Blöde Situation bringen...^^

Habe gerade mal Finereader 16 ausprobiert. Naja...sehr Fehlerbehaftet...

"l>A'. I RSTE KAPITEL " soll "DAS ERSTE KAPITEL" sein...
"einen alten Zir» kir.wagen" soll "einen alten Zirkuswagen" sein...
"knall» bimfen Anstrich" soll "knallbunten Anstrich" sein....

Das zieht sich so durch das ganze Buch...da scheint die "KI" nicht wirklich zu funzen. Gemini erkennt das alles wunderbar.
 
Zuletzt bearbeitet:
Der Standard Ist eigentlich tesseract. Damit habe ich im Studium jede Menge Bücher Die wir fix mit dem Handy fotografiert haben und durchbarr brauchten OCRd nur formeln korrektes latex zu bekommen war fummelig.


Ansonsten gemini 3 pro.. Erheblich weniger token als Claude und bessere Ergebnisse

Mein stack wäre aber eher erst klassisches ocr und dann mit anderen Tools formatieren
Ergänzung ()

mischaef schrieb:
Ich weiß nicht ob das wegen Urheberrecht und so hier geht. Da will ich meine Chefs nicht in eine Blöde Situation bringen...^^
Aus dem Aspekt, höchstens APIs. Auf keinen Fall die Web interfaces
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: AlanK, Azdak und BFF
KI ist da auch nicht besser, wirst du noch merken. ChatGPT hat bei mir auch zig Fehler bei Umlauten fabriziert. Von "Eszett" fangen wir besser gar nicht an. (Letzter Versuch November)
 
Wie wäre es mit einer Kombination? Nehme erstmal klassisches OCR und lass dann eine KI drüber laufen um potentielle fehler zu fixen.
 
  • Gefällt mir
Reaktionen: konkretor, madmax2010 und Der_Dicke82
Zurück
Oben