Von Clustern, Hauptkomponenten und totaler Planlosigkeit

Beitrag von **natural.born.chiller** » 05.10.2006, 11:36

Hallo,
ich habe ein dickes Problem. Für die Uni habe ich eine Hausarbeit zu schreiben in der ich mich mit den Möglichkeiten von SPSS auseinander setzen muss.
Die Aufgabenstellung lautet: Analyse von Regionen mit SPSS. SPSS ist für mich völliges Neuland.
Ich habe mir dafür eine große Datenmenge zu allen Landkreisen Bayerns besorgt (insgesamt 73 Indikatoren für 95 Landkreise) und stehe jetzt vor dem großen Problem eine Aussagekräftige Analyse mit SPSS durchzuführen.
Im Endeffekt soll ein Typisierung der Landkreise erfolgen.
Ich habe zuerst eine hierachische Clusteranalyse mit Ward gemacht und auch ein ergebnis bekommen welches eigentlich ganz gut aussieht. (Die unter einem Cluster zusammengefassten Landkreise waren teilweise so vorhanden wie erwartet (große Städte zusammen, ländliche regionen zusammen etc.))
Nun die Fragen

1. Wie bekommt heraus warum die Cluster genau so gebildet wurden wie sie nun vorliegen?
2. Wie kann ich mit Hilfe der Clusteranalyse herausfinden welche gemeinsamen Eigenschaften die Landkreise in den Clustern nun haben?

K-means:
Ich hab schon oft gelesen dass man die Clusterzentren speichern kann, hab das auch schon getan, weiss jetzt aber nicht was ich eigentlich damit anfangen soll

Die zugehörigkeit der Landkreise in den Clustern von Ward und K-means ist völlig unterschiedlich. Habe beide in 5 Cluster unterteilen lassen aber in der Kreuztabelle wird man nicht draus schlau. Kann es sein das z.B. Gruppe 1 bei Ward der Gruppe 3 bei K-means entspricht?

Dann gibt es ja bei SPSS auch noch die Two-Step-Clusteranalyse.
Was ist damit? Die ergebnisse sehen ja recht vielversprechend aus. Wozu ist diese Analyse geignet, welche NAchteile hat sie?

Zu guter letzt noch eine Frage. Da ich ja die Landkreise irgendwann präsentieren soll und ich begünden soll wie inwiefern sich die Gruppen unterscheiden, ist es nötig die vorhandenen Indikatoren zu reduzieren. Ich habe manuell die Anzahl der Indikatoren schon auf 29 reduziert, indem ich unnötige Indikatoren rausgeschissen habe und mich ganz auf relative Werte beschränkt habe (bevölkerungsdichte, einkommen pro kopf etc.)
Unter dem "analysieren - data reduction - optimal scale" scheint man da ja die daten irgendwie zu reduzieren können.
Leider komme ich ab dort nicht mehr weiter, alle beschreibungen die ich bis jetzt in büchern oder im web gefunden habe waren einfach viel zu theoretisch und mathematisch. (ich bin ein DAU in MAthe) Wie geht es also diesem Punkt weiter?

Puh, das ist echt ein Roman geworden - wär trotzdem nett wenn sich nicht alle von der Anzahl meiner Fragen Abschrecken lassen würden und mir schnell antworten. (die Abgabe ist Montag

)
PS: Habe Statstik I & II belegt und bestanden, kann also mit einigen Fachausdrücken was anfangen - aber bitte nicht übertreiben, bin schliesslich Geograph und kein Mathematiker

Danke schon mal im Voraus,

Florain