Hallo, suche Programm zur Textmarkierung

MaverickM schrieb:
Die bessere Frage ist, warum man in Zeiten der Digitalisierung noch Daten von hand abtippt, anstatt Import-Funktionen zu nutzen...!?
War auch mein erster Gedanke. Klingt erstmal ganz stark nach einem typischen XY-Problem.
 
  • Gefällt mir
Reaktionen: K-551 und Micha-
Hypothek schrieb:
Bei Sätzen mit Paragraphenzeichen, Zahlen und römischen Zahlen versagt er leider...

Ich kann das nur für die Paragrafenzeichen § und ¶ bestätigen, Zahlen und Römer kommen mit Win+Shift+T einwandfrei rüber, hier Testergebnis:

Bei Sätzen mit Paragraphenzeichen S q, Zahlen 123 und römischen Zahlen MDCXL versagt er leider...
 
@G.O.Tuhls
Beispieldokument: https://www.jura.uni-mannheim.de/me...tter/Dateien/Vortraege/7/3_434_schema_neu.pdf

Anstelle von "§ 434 I 1 BGB" wird "S 43411 BGB" kopiert. -> "§" falsch, aus "I" wird "1", Leerzeichen entfernt
Anstelle von "§ 434 III BGB" wird "434111 BGB" kopiert. -> "§" fehlt, aus "III" wird "111", Leerzeichen entfernt


Aus "I" wird manchmal ein "|", eine "1", ein kleines "L" und selten "i".
Je nach Schriftart oder bei kopierten Dokumenten zusätzlich je nach dpi, gibt es Fehler. Fehler sind leider die Regel.
 
  • Gefällt mir
Reaktionen: futzi und Hypothek
babbelkopf23 schrieb:
Gibt es hierfür ein Programm oder sowas?
https://apps.kde.org/de/kruler/



Ergänzung ()

@Hypothek
Hab das PDF aus jux mal getestet mit Desktop Bordmitteln:
Der Screenshot:
Bildschirmfoto_20260523_082758.png


Der Extrahierte Text (OCR)
Code:
Priifungsschemata zum neuen Kaufrecht
I. Anspruch auf Nacherfiillung - §§ 437 Nr. 1, 434, 439 BGB
1, Wirksamer Kaufvertrag
2. Sachmangel
a) Sachmangel i.S.v. § 434 I BGB = Differenz von Ist- und Sollbeschaffenheit
aa) Bei einer Vereinbarung tber die Beschaffenheit: die Sache hat nicht die vertraglich
von den Parteien vorausgesetzten Eigenschaften (§ 434 1 1 BGB)
bb) Bei Fehlen einer Beschaffenheitsvereinbarung:

Das ü ist nen Problem, Vorletzte Zeile ist das I zur 1 geworden, sonst korrekt :-)
(KDE - Spectacle)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: madmax2010 und Hypothek
@G.O.Tuhls
Es sollte aber sehr einfach sein, Paragraphen zu erkennen, da sie immer dieselbe Syntax haben.
Vielleicht braucht es RegEx, um vor der Ausgabe eine Zwischenprüfung durchlaufen zu lassen, ob es sich um ein Wort oder Paragraphen(kette) handelt.

Mit meinen sehr eingeschränkten Programmierkenntnissen stelle ich es mir sehr einfach vor, wie die Logik dahinter funktionieren sollte. Allerdings weiß ich weder, wie man eine App mit UI erstellt, wie OCR einzelne Zeichen erkennt oder wie man vor einer Ausgabe eine Zwischenprüfung mit RegEx einbaut.
Ich bin in der falschen Berufsgruppe.

Ich kann nur mit Python, SQL, etc. Daten analysieren, generieren und grafisch darstellen, wenn ich eine saubere Basis habe. Also ein Standard Format wie mdb, txt, json, csv, Microsoft Formate, etc.
Aber wie man mit OCR diese Standard Formate erstellt? Absolut keine Ahnung... und auch keine Lust es zu lernen.
Für einen entsprechenden Programmierer sollte es aber ein Kinderspiel sein, wenn er sich mit einem Juristen zusammensetzt, der alle zugelassenen Schreibweisen der üblichen Gesetze kennt.
 
Hat der TO geschrieben, das es um Gesetzestexte oder solche mit § geht?
 
  • Gefällt mir
Reaktionen: Incanus und G.O.Tuhls
Hypothek schrieb:
Es sollte aber sehr einfach sein, Paragraphen zu erkennen, da sie immer dieselbe Syntax haben.
Vielleicht braucht es RegEx, um vor der Ausgabe eine Zwischenprüfung durchlaufen zu lassen, ob es sich um ein Wort oder Paragraphen(kette) handelt.
Es bedarf lediglich geeigneter Algorithmen, kommt eben auf die dahinterliegenden Codes an. Von einfacher OCR wie PT kannste das nicht erwarten. § 13 Abs. 3 Satz 2 oder § 13 (3) Satz 2, wie die korrekte Schreibweise wäre, wird bis auf das §-Zeichen auch von Software für lau korrekt erkannt.
 
Digitalisierung Deutschland 2026… wenn eine Aufgabe mehr als zweimal gemacht wird muss es automatisiert werden und damit meine ich nicht abtippen…

Wahrscheinlich eine Aufgabe für einen Sachbearbeiter von irgendeinem Amt, die ganzen Beamten müssen ja beschäftigt werden.
 
@Micha-
Würde man jede Frage ausschließlich wörtlich nehmen, könnte man auch Bots oder KI anstelle von Menschen einsetzen.

Meine Beispiele finden sich auch nicht ausschließlich in Gesetzestexten, insbesondere römische Zahlen.
Das Paragraphenzeichen kann man als Beispiel für weitere Sonderzeichen ansehen, die mit OCR nicht so oft wie Buchstaben erkannt werden.
Und man muss sich auch dessen bewusst sein, dass man manche Fragen gar nicht erst stellt, weil man von bestimmten Problemen gar nicht erst ausgeht oder gewisse Zusammenhänge erst später klar werden.

Deshalb kann man als Mensch auf eine Frage mehrere Antworten geben und zeitgleich mögliche Folgefragen beantworten, wenn man schon persönliche Erfahrungen hat.
Und weil das Forum öffentlich ist, gelten Fragen und Antworten auch für andere und nicht exklusiv für den TO.
 
  • Gefällt mir
Reaktionen: futzi
Klar, kann man machen. Aber der TO hat KEINERLEI Hinweise gegeben und will sich auch anscheinend nicht dazu äußern. Dann über mehrere Beiträge hinweg ein winziges Detail zu diskutieren - kann man machen - ist nur eher off-topic.
 
Hehe, ich habe im Prinzip jemanden meinen Account zur Verfügung gestellt um hier diese Frage zu stellen. Ich hatte das nämlich auch nicht so ganz begriffen, deswegen hab ich gesagt Hey frag einfach hier nach. Ob irgendein Beitrag hier zur Lösung geführt hat, wird man im Laufe der nächsten Woche sehen. Sie hatte sich ein paar Antworten abfotografiert und wollte dann mal das ein oder andere ausprobieren. Man bleibt gespannt :D Ich halte euch dann auf dem Laufenden, was denn da nächste Woche bei raus gekommen ist :D

Danke!
 
babbelkopf23 schrieb:
Sie hatte sich ein paar Antworten abfotografiert
Von rein digitalen Workflows scheint man nicht viel zu halten?
 
  • Gefällt mir
Reaktionen: Xes, NJay, G.O.Tuhls und 2 andere
babbelkopf23 schrieb:
Ich hatte das nämlich auch nicht so ganz begriffen, deswegen hab ich gesagt Hey frag einfach hier nach.
Ja, wir ebenso nicht, naja zumindest ich hab absolut keine Ahnung, aber das kann sie doch auch bestimmt besser beschreiben...

babbelkopf23 schrieb:
Sie hatte sich ein paar Antworten abfotografiert
Ach du meine Güte... 🫣🫨🤦‍♂️

Vlt. sollte sie sich einen Acc hier machen und alles ausführlich beschreiben...
 
Mich treibt ja schon die ganze Zeit die Frage umsich, welche Ausbildung braucht man und welchen Stundenlohn bekommt man dafür :d
 
  • Gefällt mir
Reaktionen: G.O.Tuhls
Hey Fotografieren ist doch sowieso jetzt total digital... und auf die schnelle ist das Foto super schnell gemacht und die Info mitgenommen. aber hier nen account haben wär jetzt auch nicht so "schlimm" .-)

Hat doch sowieso jeder heute sein telefon dabei anderes als früher nicht jeder dauernt nen analogen fotoapparat dabei hatte :D

Kann man ja auch sowieso komplett mitm telefon amchen wenn das angenehmer ist.
 
MaverickM schrieb:
Die bessere Frage ist, warum man in Zeiten der Digitalisierung noch Daten von hand abtippt, anstatt Import-Funktionen zu nutzen...!?
Ein *.pdf ist ungefähr so digital wie ein Fax.
Postscript, was *.pdf zugrunde liegt ist eine Seitenbeschreibungssprache, darin befinden sich nicht zwingend Strukturmerkmale des zugrundeliegenden Dokuments.

Sollte man eigentlich wissen wenn man von Digitalisierung redet.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: madmax2010
Genießt noch eure „Arbeit“ in Zukunft machen das Algorithmen.
 
  • Gefällt mir
Reaktionen: G.O.Tuhls und testwurst200
foofoobar schrieb:
Ein *.pdf ist ungefähr so digital wie ein Fax.

Krampf. Eine PDF kann man genauso importieren, bearbeiten etc. Und wenn der Kram in der PDF auch bereits als Text vorliegt und kein reines Bild ist, lässt sich das auch wunderbar exportieren und in wo-auch-immer importieren.
 
  • Gefällt mir
Reaktionen: G.O.Tuhls, Micha- und K3ks
Zurück
Oben