Hallo zusammen!
Bei meiner Diplomarbeits-Erhebung möchte ich eine Clusteranalyse zur Identifizierung von Kundensegmenten im Tourismus-Bereich vornehmen.
Dazu möchte ich die Variable "Reiseanlass" (nominal skaliert) sowie Alter (in Kategorien, 21-30, 31-40 etc.) nehmen. Evtl. noch die Reisehäufigkeit( ebenfalls in Kategorien, einmal im Jahr, einmal im Monat etc.).
Wie gehe ich am Besten bei der Clusteranalyse vor bzw. worauf muss ich aufgrund der Skalierungen besonders achten?
Meine Idee:
Zuerst hierarchische Clusteranalyse mit Single Linkage/quadrierter euklidischer Distanz zur Elimination von Ausreißern.
Dann hierarchische Clusteranalyse mit Ward/quadrierte euklidische Distanz zu Bestimmung der optimalen Clusteranzahl.
2 Fragen/Probleme:
1. Wie kann ich die optimale Anzahl mit dem Ward-Verfahren bestimmen? In Vorlesungsunterlagen war von einem Scree-Test bzw. Scree-Plot die Rede. Aufgrund des sogenannten Elbow-Kriteriums kann man dann eine gute Clusteranzahl abschhätzen. Allerdings kann ich diesen Scree-Test nirgendwo auswählen und somit auch nicht das gewünschte Diagramm erhalten. Dendogramm ist nicht möglich, da ich über 11.000 Fälle habe und man demzufolge nix mehr erkenn kann.
2. Welches Verfahren wähle ich dann aus, um die Zuordnung der Fälle zu den Clustern zu optimieren.
Für eine Antwort wäre ich mehr als dankbar, denn langsam verzweifle ich!
Viele Grüße, Andreas
Clusteranalyse-Bestimmung optimaler Clusteranzahl
-
- Beiträge: 1
- Registriert: 11.01.2008, 11:32