Liebe Statistiker,
eine Geisteswissenschaftlerin braucht Hilfe...
Ich untersuche historische Gebäude und möchte herausfinden, ob sich anhand der Größe von Ziegelsteinen bestimmte Gebäude bestimmten Herstellern zuordnen lassen (Bevor man Ziegelgrößen genormt hat, verwendete jede Ziegelei mehr oder weniger ihr eigenes Format oder stellte die Ziegel nach Vorgaben des Bauherren her.).
Da die Ziegelgrößen auch an ein und dem selben Gebäude teils relativ stark schwanken, habe ich pro Gebäude 10 Längen, Breiten und Dicken von Ziegeln (d. h. Mauerziegel, nicht Dachziegel) gemessen und in eine Exceltabelle eingetragen. Aus den gemessenen Werten habe ich noch Mittelwert, Maximal- und Minimalwert und Volumen berechnet. Da ich mit diesen Werten allein aber nicht weiterkomme (es sind auch zuviele Daten, um sie manuell auszuwerten), wollte ich mich an SPSS versuchen.
Ich habe aus Excel u. a. die Variablen in SPSS übernommen:
[list=]Gebäude (ein Gebäude entspricht einem Fall)
L1 (erste gemessene Länge)
L(2-10) (zweite bis 10. gemessene Länge je als eine Variable)
L-Mittel (Durchschnitt der 10 gemessenen Längen)
L-Max (Maximallänge)
L-Min (Minimallänge)
B1 (erste gemessene Breite)
B(2-10) (zweite bis 10. gemessene Breite je als eine Variable)
B-Mittel (Durchschnitt der 10 gemessenen Breiten)
B-Max (Maximalbreite)
B-Min (Minimalbreite)
H1 (erste gemessene Dicke)
H(2-10) (zweite bis 10. gemessene Dicke je als eine Variable)
H-Mittel (Durchschnitt der 10 gemessenen Dicke)
H-Max (Maximaldicke)
H-Min (Minimaldicke)
Vol (Volumen aus Mittelwert berechnet[/list]
Ich konnte mit einer Hierarchischen Clusteranalyse, bei der ich nur mit den drei Mittelwerten L, B und H gearbeitet habe, schon recht brauchbare Ähnlichkeiten ermitteln. D. h. es ergaben sich Cluster, in denen sich die Ziegelmaße sehr stark ähnelten. Jetzt würde ich gern alle 10 gemessenen Werte mit in die Analyse einbeziehen, denn: Im Prinzip habe ich ja 10 mal gemessen, um einen möglichst guten Mittelwert zu bekommen. Leider sind teilweise größere Ausreißer dabei, sodass sich dadurch natürlich der Mittelwert relativiert.
Meine Fragen: Wie mache ich SPSS klar, dass die Werte für L1-10, B1-10 und H1-10 jeweils zusammengehören, damit SPSS dann jeweils mit den 10 Werten pro Variable arbeitet, um die Cluster zu produzieren? Kann ich Mittelwerte berechnen, bei denen die "Ausreißer" (entschuldigt meine statistisch ungenaue Sprache...) nicht berücksichtigt werden?
Ich würde mich sehr freuen, wenn mir jemand helfen könnte.
Ganz herzlichen Dank schon mal und viele Grüße,
wantje
Ähnlichkeiten: metrische Daten vergleichen (Cluster)
-
- Beiträge: 4
- Registriert: 04.10.2013, 11:07
-
- Beiträge: 4
- Registriert: 04.10.2013, 11:07
Dankeschön, das hilft mir schon weiter!
Habe nun mit dem Median gerechnet und auch gleich alle Werte, die ich in Excel berechnet und übernommen hatte, per SPSS neu berechnen lassen (damit das auch richtig sauber ist).
Für die Hierarchische Clusteranalyse habe ich nun die Medianmethode und die Euklidische Distanz verwendet, da meine Gruppengrößen sehr unterschiedlich sind (z. T. habe ich "Ausreißer-Objekte", z. T. nur 4 oder 5, manchmal aber auch 10 Objekte pro Gruppe, also pro Ziegelformat: diese Verteilung spiegelt sich mit der Medianmethode am besten wieder). Kann ich das so machen?
Liebe Grüße,
wantje
Habe nun mit dem Median gerechnet und auch gleich alle Werte, die ich in Excel berechnet und übernommen hatte, per SPSS neu berechnen lassen (damit das auch richtig sauber ist).
Für die Hierarchische Clusteranalyse habe ich nun die Medianmethode und die Euklidische Distanz verwendet, da meine Gruppengrößen sehr unterschiedlich sind (z. T. habe ich "Ausreißer-Objekte", z. T. nur 4 oder 5, manchmal aber auch 10 Objekte pro Gruppe, also pro Ziegelformat: diese Verteilung spiegelt sich mit der Medianmethode am besten wieder). Kann ich das so machen?
Liebe Grüße,
wantje
-
- Beiträge: 4
- Registriert: 04.10.2013, 11:07
Hallo zusammen,
habe noch ein bisschen weitergelesen, weil ich mir immer noch nicht ganz sicher bin, ob die Medianmethode bei der Hierarchischen Clusteranalyse die richtige ist. Da meine Daten nicht normalverteilt sind (ist das das gleiche wie "symmetrisch verteilt"?), kann ich die Ward-Methode nicht anwenden. Sie ergibt ohnehin bei meinen Fällen viel zu große inhomogene Gruppen.
Am passendsten erscheint mir Median mit Euklidischer Distanz.
Pro Median: die Objekthäufigkeiten werden nicht berücksichtigt
Pro Euklidische Distanz: große Differenzwerte werden stärker gewichtet als kleinere Differenzwerte
Wenn ich Medianmethode mit der Block-Distanz durchführe, kommt in etwa das gleiche raus.
Wenn ich dann die Hierarchische Clusteranalyse in SPSS so durchführe, kommt zunächst die Info, dass bei der Medianmethode die quadrierte Euklidische Distanz verwendet werden sollte. Die ergibt aber wieder sehr inhomogene Gruppen, während mit der normalen Euklidischen Distanz alles soweit passt.
Es wäre schön, wenn jemand kurz einschätzen könnte, ob mein Vorgehen so akzeptabel ist.
Danke und liebe Grüße,
die wantje
habe noch ein bisschen weitergelesen, weil ich mir immer noch nicht ganz sicher bin, ob die Medianmethode bei der Hierarchischen Clusteranalyse die richtige ist. Da meine Daten nicht normalverteilt sind (ist das das gleiche wie "symmetrisch verteilt"?), kann ich die Ward-Methode nicht anwenden. Sie ergibt ohnehin bei meinen Fällen viel zu große inhomogene Gruppen.
Am passendsten erscheint mir Median mit Euklidischer Distanz.
Pro Median: die Objekthäufigkeiten werden nicht berücksichtigt
Pro Euklidische Distanz: große Differenzwerte werden stärker gewichtet als kleinere Differenzwerte
Wenn ich Medianmethode mit der Block-Distanz durchführe, kommt in etwa das gleiche raus.
Wenn ich dann die Hierarchische Clusteranalyse in SPSS so durchführe, kommt zunächst die Info, dass bei der Medianmethode die quadrierte Euklidische Distanz verwendet werden sollte. Die ergibt aber wieder sehr inhomogene Gruppen, während mit der normalen Euklidischen Distanz alles soweit passt.
Es wäre schön, wenn jemand kurz einschätzen könnte, ob mein Vorgehen so akzeptabel ist.
Danke und liebe Grüße,
die wantje
-
- Beiträge: 4
- Registriert: 04.10.2013, 11:07
Liebe Leute,
ich bin immer noch nicht ganz sicher: ich habe n=125 und 3 gemessene Variablen (Länge, Breite, Höhe der Ziegel) mit je 10 Messungen. Daraus habe ich mehrere weitere Variablen berechnet (L/B/H jeweils Mittelwert, Maximum, Minimum, Standardabweichung, Varianz, Median; außerdem Volumen und Summen aus L/B/H).
Kann ich aus den Variablen (sind ja eigentlich nur 3 gemessene mit mehreren Messungen pro Variable) ohne Normalverteilung (ich habe mehrere Gipfel) überhaupt sinnvolle Ähnlichkeiten bestimmen? Zwar ergeben sich mit der Clusteranalyse ein paar passende Gruppen, aber ich finde einfach nicht die ideale Clusterzahl (es müsste sowas wie etwa 5 große oder rund 20 kleinere Gruppen herauskommen). Es gibt bei mir nie einen signifikanten Anstieg des Fehlerkoeffizienten. Irgendwie traue ich den Ergebnissen nicht so recht.
Danke nochmal und liebe Grüße,
wantje
ich bin immer noch nicht ganz sicher: ich habe n=125 und 3 gemessene Variablen (Länge, Breite, Höhe der Ziegel) mit je 10 Messungen. Daraus habe ich mehrere weitere Variablen berechnet (L/B/H jeweils Mittelwert, Maximum, Minimum, Standardabweichung, Varianz, Median; außerdem Volumen und Summen aus L/B/H).
Kann ich aus den Variablen (sind ja eigentlich nur 3 gemessene mit mehreren Messungen pro Variable) ohne Normalverteilung (ich habe mehrere Gipfel) überhaupt sinnvolle Ähnlichkeiten bestimmen? Zwar ergeben sich mit der Clusteranalyse ein paar passende Gruppen, aber ich finde einfach nicht die ideale Clusterzahl (es müsste sowas wie etwa 5 große oder rund 20 kleinere Gruppen herauskommen). Es gibt bei mir nie einen signifikanten Anstieg des Fehlerkoeffizienten. Irgendwie traue ich den Ergebnissen nicht so recht.
Danke nochmal und liebe Grüße,
wantje