ByteHunter
Cadet 4th Year
- Dabei seit
- Mai 2006
- Beiträge
- 108
Hallo Community,
ich arbeite derzeit an einem firmeninternen Programm zur Speicherung von Wissen. Dieses Programm besitzt eine direkte Anbindung an eine MySQL Datenbank. Inzwischen ist das Programm sehr ausgereift und die Datenbestände wachsen und wachsen.
Nun steh ich vor neuen Herrausforderungen und zwar vor der Vermeidung doppelten Wissens. Das Wissen wird in sogenannten "Informationskarten" gepsiechert. Jede dieser Karten besitzt eine ID, Autor, Datum ... und einen Text (ähnlich wie bei Wikipedia)! Jeder Nutzer hat die Möglichkeit Einträge zu verfassen und selbst einen Text zu verfassen. Jeder Eintrag ist dann noch Kategorien zugeordnet um besser danach suchen zu können!
Das Problem ist jetzt wie kann ich halbwegs präzise doppelte Einträge herrausfischen? Es kommt vor, dass zwei Einträge unterschiedliche Syntax haben aber im prinzip das gleiche gemeint ist! Ich habe schon ein paar verschiedene Skripte geschrieben die Syntax vergleichen aber die Ergebnissen waren nicht zufriedenstellend (Treffsicherheit lag bei <= 10%)
Vielleicht hat jemand von euch schonmal vor einem ähnlichen Problem gestanden oder ihr habt andere Ideen wie ich eine relativ hohe Treffsicherheit erreichen kann. Ich weiß jetzt schon das es da keine 100 prozentige Lösung gibt!
Danke schonmal im voraus!
ich arbeite derzeit an einem firmeninternen Programm zur Speicherung von Wissen. Dieses Programm besitzt eine direkte Anbindung an eine MySQL Datenbank. Inzwischen ist das Programm sehr ausgereift und die Datenbestände wachsen und wachsen.
Nun steh ich vor neuen Herrausforderungen und zwar vor der Vermeidung doppelten Wissens. Das Wissen wird in sogenannten "Informationskarten" gepsiechert. Jede dieser Karten besitzt eine ID, Autor, Datum ... und einen Text (ähnlich wie bei Wikipedia)! Jeder Nutzer hat die Möglichkeit Einträge zu verfassen und selbst einen Text zu verfassen. Jeder Eintrag ist dann noch Kategorien zugeordnet um besser danach suchen zu können!
Das Problem ist jetzt wie kann ich halbwegs präzise doppelte Einträge herrausfischen? Es kommt vor, dass zwei Einträge unterschiedliche Syntax haben aber im prinzip das gleiche gemeint ist! Ich habe schon ein paar verschiedene Skripte geschrieben die Syntax vergleichen aber die Ergebnissen waren nicht zufriedenstellend (Treffsicherheit lag bei <= 10%)
Vielleicht hat jemand von euch schonmal vor einem ähnlichen Problem gestanden oder ihr habt andere Ideen wie ich eine relativ hohe Treffsicherheit erreichen kann. Ich weiß jetzt schon das es da keine 100 prozentige Lösung gibt!
Danke schonmal im voraus!
Zuletzt bearbeitet: