OCR Software gesucht

*MovieStar* · 6. November 2018

Hallo Leute

Also ich suche eigentlich nur eine Software die automatisch läuft bei bestimmten Uhrzeiten (oder nach Aufgabenplanung)
Es ist zum Mäuse melken.
So viel mist wie vertrieben wird aber das "simple" nicht.

Ich möchte nur normale PDF's in Durchsuchbare wandeln.
Dabei soll ein Ordner überwacht werden, sobald neue Files hinein kommen, soll es umgewandelt werden.

Per skript geht das wohl weniger nehm ich an.
Kennt den niemand eine brauchbare Software?

Falls Sie zu bezahlen ist, will ich sie auch testen können. Bei so viel Mist wie da existiert ist das wohl das minimum.

Getestet habe ich bereiz: Omnipage, PDFELEMENT, Expert pDF (da ging irgenwie mit der Testversion was nicht)

Grimba · 6. November 2018

Unabhängig davon, dass es interessant wäre zu wissen, welches Betriebsystem denn auf dem Rechner läuft, der das leisten soll, kann man grundsätzlich schon was Skripten. Vermutlich ist dieser Use Case, den du beschreibst, nicht mit einfacher Converter Software abgebildet. Das wollen die vermutlich auch gar nicht leisten.

Grundsätzlich kannst du schon hingehen und per Skript und Cron Job regelmäßig neue Dateien in einem Ordner durch eine OCR jagen, die durchsuchbare PDFs erzeugt. Dazu muss sich die OCR mit Parametern starten lassen, und sich auf PDFs anwenden lassen und entsprechend durchsuchbares erzeugen können. Das Skript und die Zeitsteuerung (Cron job) kommt dann von außen. Sei es als Bash oder als CMD Script in Linux oder Windows entsprechend zeitgesteuert.

Möchtest du das immer dann haben, wenn sich was in einem Ordner ändert, so brauchst du eine Art Dienst, der auf dem System läuft, der das überwacht und entsprechend das Skript startet.

Dass das einfache Konverter-Software nicht liefert, wundert mich nicht. Was du möchtest, klingt nach Gebastel. Hier wirst du ohne eigenes Gescripte wohl nicht weit kommen. Mir ist zumindest aktuell keine kostenlose Software bekannt, die das leistet. Kannst ja mal gucken, wie weit du mit tesseract kommst, diese OCR ist zumindest kostenlos.

BFF · 6. November 2018

Hi,

Schau mal Tesseract an. Oder NAPS2.

BFF

*MovieStar* · 6. November 2018

Schaue mir gleich die 2 mal an...

@Grimba
Ka was daran gebastel sein soll.
Jeder drucker kann heutzutage OCR und mein Pagewide nicht.
Also brauch ich einen Konverter. Und lust immer diesen selber zu starten und auszuführen habe ich nicht.

Grimba · 6. November 2018

Das Gebastel kommt dadurch zustande, dass du dein Szenario komplett in Software lösen möchtest.

Du sprichst von einem Dienst, der einen Ordner überwacht, der dann eine OCR mit bestimmten Parametern startet, um ein bestimmtes Ergebnis zu liefern. Oder alternativ zumindest in regelmäßigen Zeitabständen.

Das ist doch was anderes, als ein Drucker der OCR kann. Da musst du schon eine Lösung für basteln. Eben ein entsprechendes Scriptgerüst, entsprechende Dienste, oder eine Kombination verschiedener Softwarelösungen. Dass das eine simple Konvertersoftware nicht kann, wundert mich nicht.

*MovieStar* · 6. November 2018

Gibt es von Tesseract keine offizielle homepage?
habe nur etwas über github gefunden oder wie man das nennt

Grimba · 6. November 2018

Bei Github bist du richtig

*MovieStar* · 6. November 2018

NAPS2 sieht interessant aus.
Sollte alles können was ich will und per Aufgabenplanung automatisierbar.

Ich wird heut noch testen

Danke <3

ryan_blackdrago · 6. November 2018

Werfe noch batch in den Raum.
Hatte mal einen OpenOffice Konverter zu MS-Pendant gebastelt (ODT zu doc usw.; lief damals über ein Python Skript ab).
Die Syntax für Deinen Konverter müsste halt wie folgt eingepflegt werden:

Code:

@echo off

REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

REM Pfad Konverter
SET KONVERTERPFAD=C:\Programme\Dein_Konverter

REM Pfad zum INPUT-Ordner
SET DATENINPUT=C:\INPUT

REM PFAD zum OUTPUT-Ordner
SET DATENOUTPUT=C:\OUTPUT

REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

:ANFANG

REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
REM 10 Pings abwarten
ping 127.0.0.1 -n 10 -w 1000 > NUL
REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
REM normalpdf zu durchsuchbarepdf
dir %DATENINPUT%\*.pdf /b /o:N /s > temp.txt

for /f "delims=" %%i in (temp.txt) do (
"%KONVERTERPFAD%\die_exe_vom_Konverter" Parameter_vom_Konverter "%%i" "%DATENOUTPUT%\%%~ni%%~xi_%date%_%time:~-11,2%%time:~-8,2%%time:~-5,2%%time:~-2,2%.pdf"
del "%%i" /F /Q
)
REM xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

GOTO ANFANG

Aus dem Input-Ordner werden alle Dateien mit der Endung .pdf herangezogen > entsprechend mit dem Konverter nach Output umgewandelt. Der Dateiname wird dabei mit einem Zeitstempel versehen (falls mal der Konverter abraucht, um zu prüfen wann und warum, etc.). Umgewandelte Daten werden aus Input gelöscht.

PetrT · 6. November 2018

Für Windows/Linux: gImageReader (GUI)
Für Linux: OCRmyPDF (Kommandozeile)
Beide benutzen tesseract im Hintergrund.

OCRmyPDF lässt sich leicht in ein Skript einbinden und die Ergebnisse sind wirklich gut. Bei der ersten Benutzung muss man aber ein bisschen friemeln, um noch nicht vorhandene Abhängigkeiten zu installieren. Google ist hier dein Freund.

*MovieStar* · 6. November 2018

@ryan_blackdrago
für dein batch fehlt noch der Konverter
Welchen hast du genutzt?

das mit naps2 geht scheinbar nur mit neu eingescannten dokumenten und nicht für bestehende auf dem Gerät.

@PetrT
Ich kenn mich mit github sachen nicht aus.
Ich hab somit keine Ahnung wie ich die "unbekannten" files da drin starten, ausführen oder verwenden kann.

BFF · 6. November 2018

> das mit naps2 geht scheinbar nur mit neu eingescannten dokumenten und nicht für bestehende auf dem Gerät.

Nope.

In der Kommandozeile nimmst Du den Schalter -i (Import).
https://www.naps2.com/doc-command-line.html

BFF

PetrT · 6. November 2018

Bei Github gibt es oft kompilierte Anwedungen direkt zum Herunterladen. Einfach auf "releases" gehen. Das funktioniert zum Beispiel beim gImageReader. Hier der direkte Link: https://github.com/manisandro/gImageReader/releases/. Dort dann "gImageReader_3.3.0_qt5_x86_64_tesseract4.0.0.beta.3.exe" für Windows (64bit) auswählen.

OCRmyPDF hat eine umfangreiche Dokumentation. Informationen zur Installation unter Ubuntu findest du hier.

Ich würde empfehlen, unter Linux OCRmyPDF zu verwenden, weil man es leicht in Skripte einbauen kann. Das bedarf aber Linuxkenntnisse.

Für Windows sieht NAPS2 sehr gut aus. Siehe Vorredner.

*MovieStar* · 6. November 2018

@BFF
also hat funk. wie konvertiere ich aber mehrere daten in einem Ordner?
Hier müsste ich doch so jeden Dateinamen einzeln wissen, angeben.

BFF · 6. November 2018

Hi,

Lies mal den Post #9 nochmal.

BFF

ryan_blackdrago · 6. November 2018

@ MovieStar
Habe damit keine PDFs umgewandelt. Daher auch kein Vorschlag zu irgendeiner PDF-Software meinerseits. Das Skript wartet einfach nur auf Daten und macht dann etwas mit den Daten.

Eigeninitiative: Deine bisher getestete Software aus Post#1, entsprechend mit Pfad und Parameter ins Skript einpflegen, wenn diese Kommandozeile unterstützt.

*MovieStar* · 6. November 2018

@BFF
Fast geschafft würde ich sagen.
Er kommt bim zum erstellen der Datei und dan bricht er ab.
for /f "delims=" %%i in (temp.txt) do (
"%KONVERTERPFAD%\NAPS2.Console.exe" -i -n 0 -o "%%i" "%DATENOUTPUT%\%%~ni%%~xi_%date%_%time:~-11,2%%time:~-8,2%%time:~-5,2%%time:~-2,2%.pdf"
del "%%i" /F /Q
)
stimmt etwas mit dem befehl nicht?

Ergänzung (6. November 2018)

C:\Program Files (x86)\NAPS2>naps2.console.exe -i "C:\Users\Sampler\Documents\PDF\test\diedatei.pdf" -n 0 -o "C:\Users\Sampler\Documents\PDF\test\%date:~-4,4%"-"%date:~-7,2%"-"%time:~-11,2%%time:~-8,2%%time:~-5,2%%time:~-2,2%.pdf" so fuktionierts (einzeln)
aber ich habe ja nach naps2.console.exe -i den ersten parameter und danach noch weitere nach dem imput der datei
Ich bin ja kein experte wie ihr seht aber habe das Gefühl das da der Fehler liegt

ryan_blackdrago · 6. November 2018

-i -n 0 -o kann gemäß Hilfe nicht funktionieren.

%%i => ist der Input-Ordner + Datei
damit muß es mind. so lauten : -i "%%i"

-n 0 => braucht man, wenn mehrere Dateien zu einer zusammengefügt werden sollen
=> weglassen, wenn einfach nur geprüft werden soll ob irgendeine Datei im Ordner liegt

-o ist der Output und muß somit heißen:
-o "%DATENOUTPUT%\%%~ni%%~xi_%date%_%time:~-11,2%%time:~-8,2%%time:~-5,2%%time:~-2,2%.pdf"

*MovieStar* · 6. November 2018

So... Hat alles funktioniert
Kleine Frage:
Gibt es ne option wie ich sagen kann, das falls Querformat gescannt wurde, das er dies auch richtig prüft und nicht irgendwelche komischen Zeichen ausgibt?

OCR Software gesucht

Banned

Captain

¯\_(ツ)_/¯

Banned

Captain

Banned

Captain

Banned

Captain

Cadet 2nd Year

Banned

¯\_(ツ)_/¯

Cadet 2nd Year

Banned

¯\_(ツ)_/¯

Captain

Banned

Captain

Banned

Ähnliche Themen