Paperless ngx archiviert Kontoauszug nicht

grieche47 · 7. Januar 2024

Hallo zusammen,
Ich komme beim archivieren meiner Kontoauszüge (VR Bank) diese zwar in paperless in das Web interface rein, in meinem Archiv auf dem Server landen diese jedoch nicht.
Ich habe schon sehr viele andere pdfs (Versicherungen, Abrechnungen, Rechnungen, usw.) eingefügt.
Diese wurden alle von paperless unbenannt und in meinem Archivpfad abgespeichert.
Bei meinen Kontoauszügen will er das nicht.

Woran könnte das liegen?
Jemand ähnliche Erfahrungen gemacht?
Hat das jemand unter dem gleichen Voraussetzungen archiviert bekommen?

redjack1000 · 7. Januar 2024

Schau mal im Logfile nach, eventuell findet man da Hinweise.

Cu
redjack

h3@d1355_h0r53 · 7. Januar 2024

Es kann sein, dass die PDF eine digitale Signatur hat und Paperless diese nicht mittels OCR verarbeitet. Das ist weniger ein Paperless Problem, sondern mehr dem OCR Code geschuldet.

In der Config geht das dann mit

Code:

PAPERLESS_OCR_USER_ARGS={"invalidate_digital_signatures": true}

dennoch.

grieche47 · 7. Januar 2024

@redjack1000
Also in PL im logfile ist nichts zu finden.
Läuft bei mir über docker bzw portainer. Ich denke ich sollte im log von portainer auch mal schauen, danke für den Denkanstoß.

@h3@d1355_h0r53
Ok,das klingt plausibel.
Kann ich das in portainer irgendwo verarbeiten?... Env oder dergleichen?

grieche47 · 7. Januar 2024

Es gibt wohl tatsächlich ein Problem mit dem OCR.
folgende Fehlermeldung aus dem PL Log:

Was mich jedoch ein wenig wundert.

ich hatte immer den Pfad
...\media\documents\archive\
im Auge, dort werden die PDF`s nicht abgespeichert.

In de, folgenden Pfad
.....\media\documents\originals\
hingegen schon.

Problem daher für mich gelöst.

h3@d1355_h0r53 · 8. Januar 2024

Der "originals" Pfad ist wie der Name schon sagt nur für die Originaldateien, d.h. so wie du die Datei hochlädst bzw. im Consume Ordner ablegst.
Paperless macht dann OCR, benennt ggf. um, taggt, etc... und das wird dann erst die Datei im Archivordner.

Deine Fehlermeldung hängt damit zusammen, dass die Datei verschlüsselt ist. Ist sie aber nicht, ist eher eine Art Interpretationsfehler bzw. könnten die Dateieigenschaften so sein, dass man z.B. nicht hochauflösend drucken darf. Das kann man mit Scripten umgehen bzw. checken, aber da bin ich leider raus weil ich das selbst nicht kann.

Zu meinem ersten Vorschlag, der hier nicht gilt: Ich nutze Paperless auf der Synology. Beim Container kannst du einfach die Variable eingeben wo auch z.B. Passwort oder ähnliche Settings sind.

M-X · 8. Januar 2024

Als "quick and dirty lösung" hilft oft das PDF zu öffnen, und dann mit "Drucken" nochmal ein neues PDF zu generieren. Das hat bei mir öfter geholfen wenn Paperless mal wieder etwas nicht lesen will.

grieche47 · 8. Januar 2024

Das heißt, wenn ich nun eine Datei hochlade, die nicht durchsuchbar wäre, dann wäre sie im Archiv durchsuchbar, im Ordner Originals jedoch nicht. Okay, das ist dann schon doof, deswegen macht man sich ja unter anderem die Mühe, wegen der Durchsuchbarkeit.

Was meinst Du mit "erster Vorschlag, der hier nicht gilt"?
Du meinst damit das es mit "digital_signatures" nichts zu tun haben wird?

Das Problem ist im übrigen auch bei pdf`s der DKB Bank.
Es scheint als ob alle Banken hier irgendwas an den Dokumenten machen, mit dem PL nicht klar kommt.

Okay, dann ist das Problem bei mir weiterhin Bestand, wenn bei den Org. nur die rohe Datei zu finden ist.
Es werden ja ab und an auch jpg´s mit dem Handy eingescannt, nur das Bild bringt ja recht wenig

@M-X
leider sprechen wir hier von mehreren hundert Kontoauszügen.
Aber als Notlösung würde ich das wohl machen müssen.
oder die kommen halt nicht ins paperless rein.

M-X · 8. Januar 2024

Bei so vielen betroffenen macht das natürlich keinen Sinn. Muss aber dann ein lokales problem bei dir sein, bei mir klappen alle DKB Dokumente.

grieche47 · 8. Januar 2024

Ich habe nun mal das mit dem Speichern als PDF versucht.
Danach wird die Datei anstandslos abgespeichert. Aber was passiert damit genau mit der PDF?... Wie unterscheidet sich diese, da bin ich noch nicht so recht schlau geworden. Evtl gibt es da auch Tools die das ganze als "Massenabfertigung" abwickeln können?

M-X · 8. Januar 2024

Naja technisch gesehen erstellst du halt ein komplett neues PDF, sofern ein Text layer drin war ist der dann auch weg. Es gibt sicher tools mit denen man sowas automatisieren kann, ist aber halt keine "schöne" Lösung. Es würde eher Sinn machen zu verstehen warum paperless das nicht will und dann ggf. einen Issue auf Github aufmachen damit es gefixt wird.

grieche47 · 8. Januar 2024

Das macht auf jeden Fall Sinn, das mit dem issue auf git Hub.
Schwierig wird's halt da ich leider keinen Kontoauszug bin mir zur Verfügung stellen kann

Ich denke ohne ein Beispiel File wird's schwierig dem ganzen nachzugehen.

grieche47 · 10. Januar 2024

hab jetzt mal ein Bug im Gut Hub erstellt und bin gleich mal "nett gefragt worden", warum das aus meiner Sicht ein Bug ist und der Beitrag wurde in Diskussion verschoben

..
Auch wäre im Log ja klar ersichtlich wo das Problem läge.

[2024-01-10 06:07:41,756] [INFO] [paperless.consumer] Consuming 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf

[2024-01-10 06:07:41,761] [DEBUG] [paperless.consumer] Detected mime type: application/pdf

[2024-01-10 06:07:41,764] [DEBUG] [paperless.consumer] Parser: RasterisedDocumentParser

[2024-01-10 06:07:41,769] [DEBUG] [paperless.consumer] Parsing 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf...

[2024-01-10 06:07:42,040] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': PosixPath('/tmp/paperless/paperless-ngxgwkulbmd/43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-0yx85c1l/archive.pdf'), 'use_threads': True, 'jobs': 4, 'language': 'eng', 'output_type': 'pdfa', 'progress_bar': False, 'color_conversion_strategy': 'RGB', 'skip_text': True, 'clean': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 12.0, 'sidecar': PosixPath('/tmp/paperless/paperless-0yx85c1l/sidecar.txt')}

[2024-01-10 06:07:42,305] [WARNING] [paperless.parsing.tesseract] This file is encrypted, OCR is impossible. Using any text present in the original file.

[2024-01-10 06:07:42,306] [DEBUG] [paperless.consumer] Generating thumbnail for 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf...

[2024-01-10 06:07:42,309] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient /tmp/paperless/paperless-ngxgwkulbmd/43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf[0] /tmp/paperless/paperless-0yx85c1l/convert.webp

[2024-01-10 06:07:43,653] [DEBUG] [paperless.consumer] Saving record to database

[2024-01-10 06:07:43,653] [DEBUG] [paperless.consumer] Creation date from parse_date: 2017-12-30 00:00:00+00:00

[2024-01-10 06:07:44,185] [INFO] [paperless.handlers] Assigning correspondent VR Bank Würzburg to 2017-12-30 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018

[2024-01-10 06:07:44,197] [INFO] [paperless.handlers] Assigning document type Kontoauszug to 2017-12-30 VR Bank Würzburg 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018

[2024-01-10 06:07:44,222] [INFO] [paperless.handlers] Assigning storage path Archiv to 2017-12-30 VR Bank Würzburg 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018

[2024-01-10 06:07:44,371] [DEBUG] [paperless.filehandling] Document has storage_path 2 (Archiv/{correspondent}/{created_year}{title}{document_type}) set

[2024-01-10 06:07:44,401] [DEBUG] [paperless.filehandling] Document has storage_path 2 (Archiv/{correspondent}/{created_year}{title}{document_type}) set

[2024-01-10 06:07:44,407] [DEBUG] [paperless.consumer] Deleting file /tmp/paperless/paperless-ngxgwkulbmd/43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018.pdf

[2024-01-10 06:07:44,433] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-0yx85c1l

[2024-01-10 06:07:44,435] [INFO] [paperless.consumer] Document 2017-12-30 VR Bank Würzburg 43660494_2017_Nr.003_Kontoauszug_vom_30.12.2017_13.01.2018 consumption finished

Also ich als kann da nicht direkt sehen wo das Problem liegt.
Bin aber jetzt auch kein Spezialist sondern eher fortgeschrittener Anwender

grieche47 · 10. Januar 2024

Liegt laut den Usern von Git Hub wirklich allein an der Verschlüsselung.
Habe jetzt eine Lösung für mich gefunden.

https://online2pdf.com/de/pdf-passwort-entfernen#

Hier kann man mehrere Dateien hochladen und anschließend sind diese entschlüsselt.
Nun werden die Auszüge auch in meinem Archiv abgespeichert.

M-X · 10. Januar 2024

Ich vermute die referenzieren auf diese Meldung: "This file is encrypted, OCR is impossible. Using any text present in the original file."

Hast du erwähnt das das eben nicht stimmt und das file nicht verschlüsselt ist ?

grieche47 · 10. Januar 2024

Heißt verschlüsselt zwingend das es pw geschützt ist?
Das ist es nicht.
Aber wenn ich sie eben durch den online2pdf jage gehen die files anschließend.
Die Frage ist, ob dort entschlüsselt wird oder nicht und eben einfach eine Kopie erstellt wird, gleich wie zb "speichern als PDF", das ging ja auch.

M-X · 10. Januar 2024

Für mich bedeutet "verschlüsselt" normal ein Schutz via Passwort. Das gilt es eben herauszufinden warum genau Paperless denkt es wäre verschlüsselt.

grieche47 · 19. Januar 2024

Hallo zusammen,

ich muss das Thema nochmals hochschieben.
Das ganze hat nichts mit den Kontoauszügen zu tun.
Ich habe nun das Handbuch von meinem Laptop hochladen wollen und auch hier kommt der Fehler mit dem encrypted.

Siehe LOG

"
[2024-01-19 22:07:54,204] [WARNING] [paperless.parsing.tesseract] This file is encrypted, OCR is impossible. Using any text present in the original file.
"

Hier der Link:
https://geizhals.de/asus-vivobook-1...black-90nb10r1-m001z0-a2910726.html#downloads

Das ganze ist dann unten bei den Dokumenten die Bedienungsanleitung (7,69MB).
Wäre jemand so nett und würde mal versuchen, ob das bei Euch funktioniert und richtig archiviert wird auf dem lokalen Laufwerk.
Wenn ja, dann wäre das Problem bei meinem Setting zu suchen und wenn nein dann läge es wirklich am File bzw. Paperless.

Das nervt mich schon ein wenig und hält mich derzeit davon ab paperless produktiv zu verwenden.

Vielen Dank vorab.

redjack1000 · 19. Januar 2024

grieche47 schrieb:
[2024-01-19 22:07:54,204] [WARNING] [paperless.parsing.tesseract] This file is encrypted, OCR is impossible. Using any text present in the original file.

Die gleiche Meldung bekomme ich auch

Cu
redjack

M-X · 20. Januar 2024

Bei mir wurde es Problemlos Importiert.

Paperless ngx archiviert Kontoauszug nicht

Cadet 1st Year

Fleet Admiral

h3@d1355_h0r53

Gast

Cadet 1st Year

Cadet 1st Year

h3@d1355_h0r53

Gast

Vice Admiral Pro

Cadet 1st Year

Vice Admiral Pro

Cadet 1st Year

Vice Admiral Pro

Cadet 1st Year

Cadet 1st Year

Cadet 1st Year

Vice Admiral Pro

Cadet 1st Year

Vice Admiral Pro

Cadet 1st Year

Fleet Admiral

Vice Admiral Pro

Ähnliche Themen