Hallo zusammen,
ich bin neu hier im Forum. Ich habe allerdings schon häufiger hier Hilfe über andere Forumsbeiträge gefunden.
Ich habe folgendes Problem:
Ich habe eine Befragung durchgeführt und mit Hilfe einer Cluster-Anaylse vier unterschiedliche Typen in einem Datensatz identifizieren können. Diese vier identifizierten Typen sollen anderen Fällen anhand der 10 clusterbildenen Variablen bzw. Fragen in einem anderen Datensatz zugeordnet werden. Bisher hatte ich einen Algorithmus, der auf Mittelwerten basiert
und die Abweichungen der Antworten zu den Mittelwerten prüft. Auf Basis der quadrierten Abweichungen zu den vier Typen
wird geprüft, bei welchem Typ die Summe aller quadrierten Abweichungen am geringsten ist. Leider liegen diese Mittelwerte insgesamt teilweise sehr nah beieinander, so dass der Rechner sehr sensibel reagiert. Weiterhin werden auch keine wirklichen Antwortmuster berücksichtigt.
Habt ihr vielleicht eine Idee, wie man auf Basis dieser Mittelwerte einen besseren Algorithmus entwickeln kann. Ich habe mich mal ein bisschen mit Support Vector Machines auseinander gesetzt, bin mir aber nicht sicher, ob das das geeignete Verfahren ist - es scheint auch sehr aufwendig zu sein.
Danke für eure Hilfe!
Sabille
ich bin neu hier im Forum. Ich habe allerdings schon häufiger hier Hilfe über andere Forumsbeiträge gefunden.
Ich habe folgendes Problem:
Ich habe eine Befragung durchgeführt und mit Hilfe einer Cluster-Anaylse vier unterschiedliche Typen in einem Datensatz identifizieren können. Diese vier identifizierten Typen sollen anderen Fällen anhand der 10 clusterbildenen Variablen bzw. Fragen in einem anderen Datensatz zugeordnet werden. Bisher hatte ich einen Algorithmus, der auf Mittelwerten basiert
und die Abweichungen der Antworten zu den Mittelwerten prüft. Auf Basis der quadrierten Abweichungen zu den vier Typen
wird geprüft, bei welchem Typ die Summe aller quadrierten Abweichungen am geringsten ist. Leider liegen diese Mittelwerte insgesamt teilweise sehr nah beieinander, so dass der Rechner sehr sensibel reagiert. Weiterhin werden auch keine wirklichen Antwortmuster berücksichtigt.
Habt ihr vielleicht eine Idee, wie man auf Basis dieser Mittelwerte einen besseren Algorithmus entwickeln kann. Ich habe mich mal ein bisschen mit Support Vector Machines auseinander gesetzt, bin mir aber nicht sicher, ob das das geeignete Verfahren ist - es scheint auch sehr aufwendig zu sein.
Danke für eure Hilfe!
Sabille
