Wie aus semi-strukturierten Daten strukturierte Daten machen?

nicmuc

Newbie
Registriert
Nov. 2017
Beiträge
1
Ich hätte mal eine Frage an Machine-Learing bzw- Data-Mining Experten.
Ich will eine Software schreiben, mit der man aus einem ganz normalen Lebenslauf (z.B. Word, PDF) Daten strukturiert extrahieren kann, damit man sie z.B. später in einer SQL-Datenbank abspeichern kann. Die Software soll also z.B. im Lebenslauf erkennen, wo die Auflistung der einzelnen Beschäftgigungsverhältnissen steht und diese dann strukturiert auslesen. Ich weiß, dass es bereits solche Lebenslauf-Parser gibt, jedoch möchte ich das selber schreiben.

Kann mir jemand sagen, wie man so was angeht? Geht das mit neuronalen Netzen, wenn ja wie muss man da anfangen?

Über eine "Starthilfe" zu dem Thema würde ich mich sehr freuen!

Danke
 
Reguläre Ausdrücke ... damit du Zeiträume erkennst ... sowie Abschnitte Studium / Praxiserfahrung etc.

Leg dir doch ein Lebenslauf vor die Nase und schau welche unterschiedlichen Kategorien dort aufgeführt sind, dann weißt du auch wonach du unterscheiden musst.

Wirklich Machine-Learing ist das aber nicht. Wäre eher Unterschriften-Erkennung. ;)
 
Wenn du es mit irgend einem richtigen KI Ansatz lösen willst (wobei ich nicht glaube, dass das bisher wirklich in dem Maße getan wird bei existierender Software):
Im Allgemeinen geht es immer um Training und Üben, was deine programmierte Software tut um selbst optimale Parameter zu finden um später für neue Daten auf Basis von bewährten Parametern 'sinnvoll' zu entscheiden.

Dh du brauchst erstmal eine (möglichst große) Menge Trainingsdaten (=Zahl von Lebensläufen) von denen zu weißt, wie sie in deine Datenbank einzutragen sind. Also verschiedene Formulierungen die aber jeweils zB den beruflichen Werdegang beschreiben. Hierzu brauchst du also auch quasi die 'Lösung', welche beinhaltet wie die unterschiedlichen Lebensläufe des Trainingsdaten in die Datenbank einsortiert werden sollten.
Wenn du jetzt deinen Lern-Programm (NN, SVM, ...) auf diese Daten loslässt 'lernt' es im Idealfall allgemeingültig, wie man für alle Lebensläufe erkennt welche Textzeilen wie und wo in die DB gehören.
Sofern deine Daten ausreichend sind und die Allgemeinheit repräsentieren, kannst du anschließend auch erwarten, dass neue - dem Programm unbekannte - Lebensläufe vernünftig einsortiert werden können.
--

Ich würde aber eher davon ausgehen, dass existierende Lösungen ganz simpel eine 'Regelbasierte KI' haben. Dh es gibt eine Liste von Formulierungen wie zB
Beruflicher Werdegang, Berufliche Karriere, Berufserfahrung, Erfahrung, ...
und diese werden dann halt gefunden
Anschließend muss man nur noch die verschiedenen Naheliegenden Datumsformate erkennen/lesen und den in der selben Zeile stehenden Text neben das Datum in die Datenbank packen. So erhält man ohne Lernen und echte KI wahrscheinlich ein hinreichend gutes Ergebnis.

edit:
Wenn du zumindest ein bisschen coole Informatik-Algorithmen einsetzen willst, dann könntest du dir das hier angucken:
https://de.wikipedia.org/wiki/Morphologie_(Linguistik)
Man kann Wörter und Sätze auf ihren Stamm zurückführen und somit ganz ähnliche Wörter und Sätze 'gleich machen', damit nicht jede erlaubte Variation einzeln in deiner Regeldatenbank stehen muss.
 
Zuletzt bearbeitet:
Zurück
Oben