Clusteranalyse Single-Linkage Ausreißer?

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
TTT
Beiträge: 2
Registriert: 27.05.2012, 20:31

Clusteranalyse Single-Linkage Ausreißer?

Beitrag von TTT »

Hallo alle zusammen,

um Ausreißer zu identifizieren, habe ich eine Cluster-Analyse mit dem Single-Linkage Verfahren (E-Distanz) durchgeführt. Folgendes Ergebnis hat sich dabei ergeben

Koeffizienten:

,399
,464
,527
,576
,595
,624
,637
,640
,645
,686
,707
,736
,775
,775
,781
,795
,810
,827
,832
,898
,898
,909
,913
,918
,937
,983
1,008
1,024
1,027
1,072
1,085
1,183
1,280
1,351
1,439
1,729



Nun stellt sich mir die Frage, ob ich überhaupt Objekte ausschließen muss. Kann mir jemand weiterhelfen?



Danke schonmal im Voraus :-) Tanja [/img]
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

von Single Linkage verstehe ich leider nicht sonderlich viel, aber die Frage, ob hier eine Ausreißerproblematik der Koeffizienten vorliegt kann verneint werden.

Deine Daten folgen recht gut einer Normalverteilung, wie sich optisch bereits über ein QQ-Plot und im KSO-Test auch nachweisen lässt.

Code: Alles auswählen

One-Sample Kolmogorov-Smirnov Test		
		var
N		36
Normal Parametersa,b	Mean	.87458333
	Std. Deviation	.279736649
Most Extreme Differences	Absolute	.106
	Positive	.106
	Negative	-.060
Kolmogorov-Smirnov Z		.637
Asymp. Sig. (2-tailed)		.812
a Test distribution is Normal.		
b Calculated from data.		
Ob Single Linkage eine Ausreißerproblematik identifizieren kann, und ob das überhaupt die Frage ist, kann ich leider nicht beantworten, denn:
Die Single Linkage Methode (auch Nearest Neighbour) definiert die Distanz zweier Cluster als die Distanz zwischen ihren beiden ähnlichsten Elementen. Die Distanz zwischen den beiden Elementen mit der geringsten Distanz definiert also die Distanz der Gruppen zueinander.
Quelle Wikipedia

Und was hat das mit Ausreißern zu tun? Eigentlich werden Ausreißer und Extremwerte anhand von Vielfachen einer Standardabweichung bestimmt.
drfg2008
TTT
Beiträge: 2
Registriert: 27.05.2012, 20:31

Beitrag von TTT »

Vielen Dank für deine Antwort,

zu deiner Frage: Da das Single-Linkage Verfahren als neue Distanz zwischen zwei Gruppen immer den kleinsten Wert der Einzeldistanzen heranzieht, ist es geeignet "Ausreißer" in einer Objektmenge zu erkennen. Die Ausreißer müssen identifiziert und eliminiert werden, bevor man das Ward-Verfahren im zweiten Schritt anwenden kann :-)

lg Tanja
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

Ok, etwas dazugelernt.

Ward und Single Linkage gehören wohl der Hierarchischen Clusteranalyse an. Wenn ich von gleicher Bedeutung der Variablen ausgehe, dann würde ich aber ohnehin eine z-Transformation voraus berechnen. Und damit gäbe es auch keine Ausreißerproblematik. Wenn ich nicht von Gleichbedeutung ausgehen würde, etwa wenn im klassischen Beispiel von Achim Bühl und Peter Zoefel (SPSS) Kalorien wichtiger sind als Preis in der Differenzierung der Biersorten, dann sind die stark alkoholhaltigen und dadurch kalorienhaltigen Getränke nun einmal eine Gruppe für sich. Dann würde ich wohl eher die Anzahl der Cluster nicht zu niedrig ansetzen und den Ausreißer (das war irgend so ein starkes Gesöff) eben als eigenes Cluster betrachten.
drfg2008
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten