Hallo zusammen,
Im Rahmen meiner Masterarbeit möchte ich eine Clusteranalyse mit gemischt skalierten Variablen durchführen und frage mich, wie ich das am besten mache.
Ich habe folgende Variablen:
• Binär: Geschlecht (zwei Ausprägungen: 0 und 1)
• Nominal/ordinal: Kundenstatus (fünf Ausprägungen von 0 bis 4)
• Metrisch: Anteil emotionaler Wörter im Text (Zahl von 0-100)
Soweit ich weiß, gibt es folgende Möglichkeiten, unterschiedlich skalierte Variablen zu clustern:
1. Alle Variablen auf ein einheitliches Skalenniveau bringen, z.B. mittels Mediandichotomisierung. Problem hierbei: Informationsverluste
2. Ähnlichkeitskoeffizienten bzw. Distanzen für die verschiedenen Skalenniveaus getrennt berechnen und dann die Gesamtähnlichkeit als gewichteten Mittelwert bestimmen. Problem hierbei: Wie kann ich diese manuell erstellte Distanzmatrix in SPSS einlesen und für eine Clusteranalyse verwenden?
3. Two-Step-Clusteranalyse in SPSS für kategoriale und metrische Daten. Problem: SPSS gewichtet Unterschiede in kategorialen Variablen höher als Unterschiede in metrischen Variablen. Dadurch wird das Ergebnis verzerrt.
Da es bei allen drei Varianten Probleme gibt, frage ich mich, welches die beste Lösung ist und wie ich die jeweiligen Probleme umgehen kann. Kann mir jemand weiterhelfen?
Über eine schnelle Antwort würde ich mich sehr freuen!
Besten Dank und viele Grüße,
beka
Clusteranalyse gemischt-skalierte Daten
-
- Beiträge: 94
- Registriert: 31.07.2014, 18:08
Hi,
ich würde mal versuchen, eien Z-Standardisierung der Variablen vorzunehmen.
Generell ist es aber bei Clusteranalysen so, dass sie keine "richtigen" oder "falschen" Lösungen bieten können, d.h. man kann und muss da immer Einfluss nehmen und steuern (natürlich in sinnvoller Weise).
Unterschiedlich großer Einfluss von Variablen innerhalb einer Clusterung ist also gar nicht vermeidbar und muss auch nicht vermeiden werden - die Frage ist nur ob am Ende brauchbare Gruppierungen herauskommen, die auch wirklich Unterschiede hervorbringen, die sinnvoll interpretierbar sind. (ist zumindest meine Meinung)
Viele Grüße,
Daniel
ich würde mal versuchen, eien Z-Standardisierung der Variablen vorzunehmen.
Generell ist es aber bei Clusteranalysen so, dass sie keine "richtigen" oder "falschen" Lösungen bieten können, d.h. man kann und muss da immer Einfluss nehmen und steuern (natürlich in sinnvoller Weise).
Unterschiedlich großer Einfluss von Variablen innerhalb einer Clusterung ist also gar nicht vermeidbar und muss auch nicht vermeiden werden - die Frage ist nur ob am Ende brauchbare Gruppierungen herauskommen, die auch wirklich Unterschiede hervorbringen, die sinnvoll interpretierbar sind. (ist zumindest meine Meinung)
Viele Grüße,
Daniel
-
- Beiträge: 1733
- Registriert: 11.03.2010, 22:28
-
- Beiträge: 94
- Registriert: 31.07.2014, 18:08
Hallo,
ja, sorry, das war vielleicht etwas zu voreilig. Hatte in Erinnerung, dass man auch dichotome Merkmale als metrisch ansehen kann, bzw. ordinale, wenn man diese dummy-codiert (0/1). Da muss man dann aber wohl noch diverse Umrechnungen veranstalten.
Zu deinem Punkt 2 mit der Distanzmatrix: Bei einer hierarchischen Clusterung kann man über die Syntax eine Distanzmatrix einlesen, mittels unterbefehl "/Matrix in='Matrixdatendatei'.
Als Tipp wenn es um die Feinheiten geht: Das Buch "Clusteranalyse mit SPSS" von Christian FG Schendera kann ich sehr empfehlen. (ich hoffe die Forum-Regenl erlauben Buchempfehlungen?)
Grüße,
Daniel
ja, sorry, das war vielleicht etwas zu voreilig. Hatte in Erinnerung, dass man auch dichotome Merkmale als metrisch ansehen kann, bzw. ordinale, wenn man diese dummy-codiert (0/1). Da muss man dann aber wohl noch diverse Umrechnungen veranstalten.
Zu deinem Punkt 2 mit der Distanzmatrix: Bei einer hierarchischen Clusterung kann man über die Syntax eine Distanzmatrix einlesen, mittels unterbefehl "/Matrix in='Matrixdatendatei'.
Als Tipp wenn es um die Feinheiten geht: Das Buch "Clusteranalyse mit SPSS" von Christian FG Schendera kann ich sehr empfehlen. (ich hoffe die Forum-Regenl erlauben Buchempfehlungen?)
Grüße,
Daniel