Clusteranalyse von nominalen Variablen

Beitrag von **WC3** » 03.06.2019, 14:57

Hallo zusammen,

ich muss im Rahmen meiner Bachelorarbeit eine Clusteranalyse von nominalen Variablen mit verschieden vielen Ausprägungen durchführen. Mein Problem dabei ist, dass bei zwei Variablen eine Mehrfachnennung möglich ist und ich nicht genau weiß, wie ich das in SPSS darstellen kann.

Ich habe überlegt, die Variablen mit Mehrfachnennung als Dichotomie Variable darzustellen. Jedoch weiß nicht, wie ich diese für die Clusteranalyse mit den anderen Variablen benutzen kann.

Ich hoffe, jemand kann mir einen Tipp geben, wie ich mein Problem lösen kann.

Beitrag von **dutchie** » 03.06.2019, 15:44

Hallo WC3

Schwer zu vereinbaren! ist das BWL zielgruppen...?
erstmal gucken...:
alle Variablen korrelieren z.B. durch faktorenanalyse, aber auch dort problem intervall mit dichotom..
wer weiß was da rauskommt!

ich würde dann nur mit hilfe der intervallskalierten Variablenb cluster bauen, wenn das bei dir das häufigste Skalenniveau ist?

das set ist ja im prinzip auch nur eine Variable, nicht dass du mehr dichotome rein steckst als nötig!
hast du nur ein set?
wenn n sehr groß ist kannst du z.B auch bedingt clustern.. einmal für Frauen und einmal für Männer und dies dann vergleichen...

gruß
dutchie

Beitrag von **WC3** » 03.06.2019, 15:54

Vielen Dank für deine schnelle Antwort.

Ja genau BWL Zielgruppe. Es geht um eine Erstellung von verschiedenen Geschäftsmodell Cluster.
In einem Paper habe ich eine Möglichkeit gefunden, wie man das durchführen kann, jedoch weiß ich nicht genau wie ich das in SPSS ausführen kann. Vielleicht verstehst du, was die damit meinen oder wie man das in SPSS umsetzen kann

Among the distance measures suitable for binary variables, we selected the matching coefficient (Sokal and Michener1958) rather than more complex measures like the Russel/Rao index (Rao 1948) or the Jaccard coefficient (P. H. A. Sneath 1957) as it is the most straightforward approach, fits the substantive interpretation of our data, is commonly used in combination with Ward’s method and has shown to perform similar to other measures of distance or similarity (Finch 2005; Hands and Everitt 1987). To apply the distance measure, we dichotomized our classification that each characteristic of a dimension is represented by a separate column that indicates 1 if the characteristic is observable at the respective service offering and 0 if not. Subsequently, we standardized all dimensions in a way that the distance between two service offerings lays between 0 and 1 for each dimension. We follow methodological guidelines like, for example, Finch (2005) who performed a simulation study and tested the application of Ward’s algorithms in combination with different distance measures, thereunder the matching coefficient, on dichotomous data.

Beitrag von **dutchie** » 03.06.2019, 16:49

hallo WC3

wenn ich das richtig lese beziehen die sich auf eine clusteranalyse
mit ausschließlich nominale Variablen...

bei SPSS über hierarch. Clusterana. über methode kannst du zwischen den skalenniveaus
wählen und dann innerhalb dessen unter verschiedenen distanzmaßen ( z.B. Jaccard)...
und fusionsalgorthmen (Ward)..und dann machen die dummies 1-0 variablen
wie du bei den sets...aber für einen Mehrfachkategoriale Variable ohne mehrfachantwort?!

hast du denn intervalldaten und nominaldaten gleichzeitig?
also problem:
1. nominal mit intervall
2. "problem der zelle d" das sagt dir nichts oder? wenn einer nein-nein sagt ist das einen Übereinstimmung?
3. mehrfachantwort, dann hat eine VP eventuell mehr einfuß als eine andere

gruß
dutchie

Beitrag von **WC3** » 03.06.2019, 19:43

Hallo dutchie,

ja genau, ich habe ausschließlich nominale Variablen. Das hatte ich ja oben geschrieben.

Ich verstehe jetzt auch, dass ich jede einzelne Charakteristik als Variable darstellen muss und ihr dann entweder eine 1, wenn die Charakteristik zutrifft, oder eine 0, wenn die Charakteristik nicht zutrifft, zuordnen muss. Und jetzt könnte ich auch die Ward-Methode anwenden, um verschiedene Cluster herauszuarbeiten.

In dem Text steht jedoch auch, dass die Dimensionen standardisiert werden. hast du eine Idee, wie ich das machen kann? Oder bedeutet das lediglich, dass ich einen Hacken bei Standardisierung setzen muss, wenn ich die hierarch. Clusteranalyse durchführe ?

Und schonmal vielen Dank für deine Hilfe !

Beitrag von **dutchie** » 03.06.2019, 21:08

Hallo WC3

OK, nur nominal, dann ist Problem 1 schon mal gelößt!

also ich kenn Finch (2005) nicht..
das man nominale Variablen standardisiert ist mir eher fremd
du kannst auch bei SPSS, wenn du auf Methode binär gehst,
den button standardisieren nicht benutzen!

sind damit überhaupt z werte gemeint?

ich weiß nicht wie die oder Finch (2005) standardisieren...also lesen!
weil dann hat die häufigkeit des vorkommens der 1 = ja
einfluss auf die distanz!?

bezieht sich der engliche text überhaupt auf sets, bzw mehrfachantworten???

denn du die sets alle dichotomisierst, hat deine variable mit den Mehrfachantwort ein höherers gewicht in der
analyse als eine normale dichotome variable, um das auszugleichen hatte Finch
eventuell mit einer spezial methode der Standardisierung eine Idee???

gruß
dutchie

Beitrag von **WC3** » 03.06.2019, 23:17

Hallo dutchie

also ich habe das eben mal probiert bei SPSS einzugeben. Ich habe eine Hierar. Clusteranalyse mit der ward Methode und als Distanz Maß einfache Übereinstimmung genommen. Das Dendogramm stellt jedoch nur gerade Striche dar, die alle am Ende zusammen laufen. Also der Ansatz hat schonmal nicht funktioniert.
Muss ich bei der Einteilung meiner Variablen vielleicht noch irgendwas beachten ? Momentan habe ich 75 Fälle und 28 Variablen.

Ich habe auch schon überlegt, ob der Satz "we standardized all dimensions in a way that the distance between two service offerings lays between 0 and 1 for each dimension." gar nicht auf die Standardabweichung bezogen ist, sondern einfach bedeutet, dass im Reiter Methoden der Hacken bei "Auf Bereich 0-1 skalieren im Feld Werte transformieren gesetzt werden muss.

Was meinst du mit Sets

Grüße WC3

Beitrag von **dutchie** » 04.06.2019, 15:17

hallo WC3

Sets = Mehrfachantwort
du meinst:
man kann Werte tranformieren (0-1 standardisieren) oder Maße transformieren (0-1 skalieren)

Was passiert beim einem? und was beim anderen? was haben die gemacht und vorallen warum?
und warum musst du nachmachen was die vorgemacht haben?

wenn du nur dichotom unterwegs bist geht transformieren (linke 0-1standardisieren) gar nicht..

weil alle variablen ja von selber dieselbe range, spannweite, wertegröße besitzt! von 0 bis 1 eben (dichtom meint das jetzt!)

die reden aber von standardisieren der Dimensionen (= Variablen?), ich würde das so verstehen, dass wenn dichotome und intervallskalierte
Variablen in einer clusteranalyse gemeinsam vorkommen, muss man die intervallskalieret auf die Messwertspanne 0 -1 bringen um sie mit den dichotomen(von selber auf 0 - 1) vergleichen zu können! das heißt die Variable "service offering" war nicht dichotom...

Maße transformieren (0-1 skalieren) bezieht sich auf die Distanzmaße selber!
lass dir mal die distanzmaße anzeigen bei intervalldaten mal mit häckchen mal ohne...

sind denn alle 28 variablen dichotom? kommen die alle aus einer Setvariable?
also das, dass nicht funzt, hat das mit dem 0-1 zeugs was zu tun?, glaube nicht
..gerade striche...heißt das, dass die distanzmaße zwischen allen Fällen gleich sind??
dann stimmt das was grundsätzlich nicht!!!

du merkst da kann man viel einstellen, rumdrücken und tricksen bis die cluster rauskommen die man haben will..
welche cluster willst du denn haben? hast da theoretische Vorstellung...

gruß
dutchie

Beitrag von **WC3** » 04.06.2019, 20:22

Hallo dutchie,

also ich habe ingesamt eine Klassifizierung von 5 Dimensionen mit insgesamt 28 Charakteristiken. In 2 von 5 Dimensionen ist eine Mehrfachauswahl möglich. Um das Problem mit der Mehrfachauswahl zu lösen, habe ich gedacht, dass ich einfach jede einzelne Charakteristik als variable darstelle und die binär codiere.

Ich muss dieses Verfahren, nicht unbedingt benutzen. Alle anderen Lösungsalternativen nehme ich gerne an

Ich weiß nur, dass bei dem zuvor beschriebenen Verfahren eine ähnliche Klassifizierung vorlag, bei der in manchen Dimensionen auch eine Mehrfachauswahl möglich war.

Beitrag von **dutchie** » 05.06.2019, 14:38

hallo WC3

also wenn bei dir alle dichotom sind
versteh ich das mit der 1-0 sache nicht!

und 28 variablen sind viel! aber eigentlich sind es nur 5?!
vielleicht reduzieren oder eine Faktorenanalyse vorher machen!?

du hast drei normale dichotome variablen und dann noch 2 Mehrfach-Variablen
die dann noch 25 mehrfache dichotome antworten hinzufügen...
mach doch für jede mehrfach antwort eine cluteranlyse getrennt, für sich!
quasi vorauslaufend, das man erstmal das schema, art und weise versteht, beschreibt
wie mehrfach geantwortet wurde!

gruß
dutchie

Beitrag von **WC3** » 05.06.2019, 14:51

Hallo Dutchie,

ch glaube, du hast mein Problem noch nicht verstanden.

Also ich habe insgesamt 5 variablen.
Variable 1 : 2 Antwortmöglichkeiten Mehrfachantowrt möglich
Variable 2 : 4 Antwortmöglichkeiten Mehrfachantwort möglich
Variable 3 : 6 Antwortmöglichkeiten nur Einzel Antwort
Variable 4 : 11 Antwortmöglichkeiten nur Einzel antwort
Variable 5 : 5 Antwortmöglichkeiten

Um das Problem mit der Mehrfachnennung zu lösen, habe ich dann einfach aus jeder Antwortmöglichkeit eine Variable mit 1 falls vorhanden oder 0 falls nicht zutreffen gemacht. so hatte ich es in dem zuvor genannten Paper verstanden.
Wenn ich jetzt die Ward Methode mit einfache Übereinstimmung nutze, kommt nichts dabei raus. Nehme ich jedoch, die eukl. Distanz komme ich zu einem Ergebnis. Ich weiß nur nicht, ob ich dieses Distanzmaß in diesem Fall benutzen darf.

Beitrag von **dutchie** » 05.06.2019, 19:14

hallo

WC3 hat geschrieben:Nehme ich jedoch, die eukl. Distanz komme ich zu einem Ergebnis. Ich weiß nur nicht, ob ich dieses Distanzmaß in diesem Fall benutzen darf.

dürfen ja, sinnvoll nein...du bist auf nominal dichotom!

und check dann dochmal was es mit zelle d auf sich hat...und wie die "einfache übereinstimmung" damit umgeht!!!!
zweimal nein ist keine Übereinstimmung !!! zweimal ja aber schon!!

WC3 hat geschrieben:Wenn ich jetzt die Ward Methode mit einfache Übereinstimmung nutze, kommt nichts dabei raus.

warum ist das denn so? ich würde vermuten das liegt an deinen daten! der weg ist aber richtig..
kläre das doch erst!

wenn du aus jeder antwort dummies baust und zu 28 dichotomen variablen kommst
geht variable 4 mit 11 variablen in die anlyse ein, Variabel 1 nur mit einer !!!
die clusterlösung ist also hauptsächlich von Variable 4 bestimmt, d.h die anderen variablen kannst eigentlich du weg lassen!

gruß
dutchie

Beitrag von **WC3** » 05.06.2019, 19:28

Hallo dutchie,

vielen Dank für deine Antwort. Also bedeutet es, dass eine Clusteranalyse hinfällig ist ?

Das mit Zelle d habe ich schon verstanden, aber ich habe das einfach mal ausprobiert

Und mit "deine Daten sind falsch" meinst du, dass die verschiedenen Variablen unterschiedlich viele Auswahlmöglichkeiten haben ?

Heißt es in dem zuvor zitierten paper deswegen, dass die Dimensionen standardisiert werden ?

Viele Grüße

Wc3

Beitrag von **dutchie** » 06.06.2019, 13:45

Hallo

WC3 hat geschrieben:we standardized all dimensions in a way that the distance between two service offerings lays between 0 and 1 for each dimension.

ohne zu wissen welche Variablen, die wie gemessen und dann irgendwie dichotomisiert und standardisiert haben, ich kann nur raten was dieser
Textausschnitt zu bedeuten hat, du hast ja den ganzen articel. Geh doch nicht von diesem aus sondern von deiner Datenlage.

WC3 hat geschrieben:deine Daten sind falsch

ich meine die situation in der das dendrogramm nur waagrechte striche wiedergab..

eine Dimension ist normal was anderes als eine Antwortmöglichkeit, das bringt ja gerade die verwirrung..
ich würde mir erst mal jede Variable für sich anschauen..z.B die mit den 11 Antwortmöglichkeiten..
da hat bestimmt nicht jeder 11 mal "ja" gesagt...und dann versuchen diese 11 dichotomen Variablen zu reduzieren...

insofern ist clustern nicht hinfällig, das ist schon möglich!

gruß
dutchie

Beitrag von **WC3** » 06.06.2019, 16:11

Hallo Dutchie,

ich habe das jetzt einfach durch eine Kategorisierung gelöst. Dadurch geht wahrscheinlich ein gewisser Informationsgehalt verloren, aber ich habe leider nicht mehr genug Zeit mich weiter damit auseinander zu setzen.

Ich habe für die verschiedenen Antwortkombinationen einfach neue Kategorien codiert.
also habe ich dann ein Datenset aus 5 variablen mit einer nominalen Skala. Für dieses Verfahren kann ich dann nicht den Ward-Also benutzen, oder ? Dieser ist nämlich nur für binäre Datensets ausgelegt , richtig ?
Hast du eine Idee, welchen Also ich dann am besten benutze ?

Gruß WC3

Statistik-Tutorial Forum

Clusteranalyse von nominalen Variablen

Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen

Re: Clusteranalyse von nominalen Variablen