Suche Thema für Information Retrieval

kavuch

Cadet 4th Year
Registriert
Okt. 2014
Beiträge
74
Hallo.

Ich mache dieses Semester das Hauptseminar Information Retrieval, wo jeder ein Thema vorschlagen kann, welches er am Ende präsentieren wird.
Mir macht das Programmieren am meisten Spaß, sodass ich gern ein praktisches Thema hätte.

Ich interessiere mich für u.a. für das Text Mining. Ich habe überlegt, Informationen aus z.B. Wikidata, Twitter oder Google zu extrahieren und irgendetwas Sinnvolles damit anzustellen.
Als Programmiersprachen kommen für mich Java und PHP infrage, wobei ich Java bevorzuge.
Falls es relevant ist: Ich studiere Master Informatik an einer Uni.

Könnte mir jemand ein paar Ideen nennen?

Vielen Dank!
 
Zuletzt bearbeitet:
Sollte ein Seminar nicht aus dem zusammenfassen von existierenden Papern bestehen und deren kritische Bewertung?

Klar kann man auch noch etwas dazu programmieren, aber das sollte dann wohl an das Paper angelehnt sein.

Das was du vorhast klingt für mich nach einem Projekt.
Sowas zum Beispiel? : http://projects.ict.usc.edu/nld/ir-class/content/project-ideas

Ich bin zwar kein Moralapostel, aber als Master sollte man zumindest fähig sein solche Ideen selbst im Internet zu finden oder darauf zu kommen, wenn man sich in das Thema einliest.
 
NuminousDestiny schrieb:
Sollte ein Seminar nicht aus dem zusammenfassen von existierenden Papern bestehen und deren kritische Bewertung?

Klar kann man auch noch etwas dazu programmieren, aber das sollte dann wohl an das Paper angelehnt sein.

Das was du vorhast klingt für mich nach einem Projekt.
Nein, das ist so, wie ich es beschrieben habe. Wir sollen wirklich nur etwas programmieren und es dann vorstellen. Du hast Recht, es ist eher ein Projekt.

NuminousDestiny schrieb:
Sowas zum Beispiel? : http://projects.ict.usc.edu/nld/ir-class/content/project-ideas

Ich bin zwar kein Moralapostel, aber als Master sollte man zumindest fähig sein solche Ideen selbst im Internet zu finden oder darauf zu kommen, wenn man sich in das Thema einliest.
Danke, die Webseite habe ich auch gefunden. Ich dachte nur, dass jemand evtl. weitere/bessere/aktuellere Ideen hat.
Vielleicht hat jemand sogar schon ähnliche Erfahrungen gemacht und weiß einfach, was möglich ist. Das Thema soll bereits Anfang nächster Woche feststehen, sodass ich leider nicht die Zeit habe, alle möglichen Tools auszuprobieren.

Was ist so schlimm daran, euch nach Ideen zu fragen? Ich bitte ja niemanden, das Ding für mich zu entwickeln. :)
 
//EDIT: Ich seh grad, dass das Thema schon durch ist, weil dein Thema jetzt schon steht. Aus Interesse: Was ist es geworden?

Vorneweg: Ich bin im Bereich Text Mining im Gesundheitsbereich unterwegs.

Im Bereich Text Mining gibt es heutzutage bereits einiges als Bibliotheken in verschiedensten Programmiersprachen (für Java: http://deeplearning4j.org/word2vec.html, https://opennlp.apache.org/, http://alias-i.com/lingpipe/).

Sollst Du etwas "neues" in diesem Seminar machen oder reicht es, wenn Du etwas wissenschaftlich etabliertes "nachbaust"?

"Sentiment Analysis" auf Twitter ist z.B. ein alter Hut und ist auf Grund der Limitierung auf 140 Zeichen nicht unbedingt trivial.

Für die Erkennung von Silben oder von Negationen im Deutschen gibt es aktuell noch keine richtig guten Algorithmen / Ansätze - wäre das nicht was? ;-)

Klassische Sachen (die immer wieder gemacht werden / wurden):


  • Überwachte Textklassifikation mit z.B. Support Vector Machines, Random Forest, ... (Domäne beliebig, z.B. Spam)
  • Clusterbildung auf Textkorpora zum Finden von Domänenwissen
  • Konzeptextraktion aus Textkorpora für bestimmte Domänen, z.B. Geschichte ;-)
  • Suchmaschine auf eigener Datenbasis mit Apache Lucene (ist aber mehr Framework Anwendung und nicht wirklich schwierig....)

Zum Rumspielen gibt es ja einige freie Korpora, wenn man sich nicht die Mühe machen will, sich den Korpus selber zu bauen: http://www-nlp.stanford.edu/links/statnlp.html (Übersichtsseite).

Alternativ könntest Du Dir auch das "Semantic Web" anschauen und über die semantische Verlinkung Texte für deine Korpora extrahieren (mit dem Vorteil, dass die Domäne ziemlich gut eingrenzbar ist).
 
Zurück
Oben