Ähnlichkeiten von Gruppen bestehend aus zum Teil gleichen Mitgliedern erkennen

ebody

Newbie
Registriert
Sep. 2016
Beiträge
2
Hallo,

meine Frage bezieht sich nicht auf eine spezielle Programmiersprache, sondern auf die geeignete "Methode", Technik.

Beispiel:

  • Es gibt eine Tabelle mit Mitgliedern bestehend aus ID, Vorname, Name, Geburtsdatum.
  • Es werden verschiedene Gruppen erstellt, wie z.B. Hobbies: Fussball, XBox, Laufen, Kochen, Tiere usw.
  • Jedes Mitglied kann in mehreren Gruppen vorkommen.

Mein Ziel ist es, die Ähnlichkeit dieser Gruppen in einem Wert zu erfassen, um zu erkennen wie ähnlich die Gruppen sich anhand ihrer Mitglieder sind.

Wären in jeder Gruppe 1000 Mitglieder und in Gruppe Fussball und Laufen sind jeweils 999 gleiche Mitglieder wäre die Ähnlichkeit bei fast 100%. Wäre nur 1 Mitglied identisch in beiden Gruppen, läge die Ähnlichkeit der Gruppen bei 0,1%.

Die ID kennzeichnet jedes Mitglied mit einer einzigartigen Zahl. Die ID´s jeder Gruppe einfach zu addieren würde aber kein wirklich guten Wert ergeben, der die Ähnlichkeit zeigt. Ein Hashwert z.B. wäre ein eindeutiger Fingerabruck je Mitglied.

Nur kenne ich leider keine "Methode" oder Technik, wie ich aus den einzelnen Hashwerten einer Gruppe einen Wert erzeugen kann und auch die Ähnlichkeit mit den anderen Gruppen anhand dessen berechne.

Weiß jemand, wie man so was umsetzen kann. Ein Fachbegriff oder Stichwort was ich dann weiter recherchieren kann, würde auch schon helfen.

Gruß
ebody
 
Verstehe ich nicht, du hast die Definition doch selbst gemacht:
Wären in jeder Gruppe 1000 Mitglieder und in Gruppe Fussball und Laufen sind jeweils 999 gleiche Mitglieder wäre die Ähnlichkeit bei fast 100%. Wäre nur 1 Mitglied identisch in beiden Gruppen, läge die Ähnlichkeit der Gruppen bei 0,1%.

Willst du jetzt eine alternative Definition oder willst du die Methodik, dies zu berechnen?

Du schreibst Umsetzen, also:

Mehrere Programmiersprachen unterstützen Set Operationen. Machste ein Intersect / Schnittmenge und zack, haste das Ergebnis.

Dann musst du nur noch definieren, wie die Grundmenge ist. Entweder die Kardinalität der größeren Menge oder das arithmetische Mittel der beiden Kardinalitäten.
 
Such mal nach "Similarity indices" oder "Bray-Curtis Index". Das sind Methoden, die hauptsächlich in der Biologie eingesetzt werden, um die Ähnlichkeit von Artgemeinschaften zu bestimmen. Je nachdem, ob die Gruppen gleich oder unterschiedlich groß sind, könntest du dann auch noch unterschiedliche Indizes verwenden, aber ich denke Bray-Curtis sollte erstmal gut funktionieren.
 
Zurück
Oben