Clusteranalyse mit fehlenden Daten.

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Hallo zusammen,

gerne würde ich eine Clusteranalyse zu allen deutschen Landkreisen selbst erstellen, so dass ich diese in ihre Strukturstärken untergliedern kann.

Ich habe bereits alle dafür notwendigen Daten aus der Regionaldatenbank Deutschland, jedoch fehlen bei zahlreichen Landkreisen Informationen wie z.B. BIP oder ähnliches.

Wie gehe ich mit genau diesen fehlenden Daten in einer Clusteranalyse um, so dass ich wirklich auch für alle Landkreise finale Informationen zu deren Strukturstärke habe?

Ich habe nun schon mehrfach in Google nach "missing values in Clusteranalysen" gesucht, jedoch meist nur Informationen zu missing values in Regression Analysen gefunden.

Bestimmte Landkreise außen vor zu lassen ist allerdings keine Option, da ich für jeden Kreis eine Eingliederung benötige, so dass ich weitere Analysen durchführen kann.

Falls ihr eine Idee habt, freue ich mich von euch zu lesen :-).

Liebe Grüße
Florian
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von dutchie »

hallo florian

schwierig!

erstmal weiß ich spontan nicht wie eine Clusteranalyse dir bei der beurteilung
der "strukturstärke" helfen soll?

fehlende werte kann man schätzen, imputieren, das hast du bestimmt auch schon herausgefunden
das macht aber nur bist zu einem Gewissen Grad sinn, das gilt für regression usw..
ob man bei clusteranalyse über missings andere strategien entwickeln kann soll darf muss,
als bei regression ??? möglich vielleicht kann man die missings irgenwie umgehen?
wenn bei dir ein wert fehlt ist das random? oder steht da eine systematik dahinter?
"strukturstärke" ist eine stetige Variable? wozu dann gruppen mit ungefähr gleichen Landkreisen?
oder siehst du qualitative unterschiede in diesem Begriff?

so weit...
gruß
dutchie
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Hallo dutchie,

vielen Dank für deinen Beitrag.

Ich möchte nicht die Missing Values durch die Clusteranalyse ermitteln, ich brauche die Daten für die Clusteranalyse, da ich keine der Missings streichen kann.
Die Fehler sind MCAR - sie wurden für bestimmte Regionen einfach nicht erhoben.

Die Strukturstärke selbst habe ich nicht. Sie soll ermittelt werden - bsp. für die Ermittlung sind die Daten: BIP, Einkommen, Schulabgänger etc.

Um zu verstehen um was es im Detail geht:

Es sollen Kreise und kreisfreien Städte in Deutschland ihrer Strukturschwäche/-stärke geclustert werden, so dass ich Ableitungen auf die in den jeweiligen Regionen ansässigen Banken und deren Income Statement anstellen kann.
Hintergrund meines Gedanken ist, dass eine Bank in München wohl nicht den gleichen Effekten (strukturell und finanziell betrachtet) ausgesetzt ist, wie einer Bank in ländlichen Regionen, die oftmals strukturschwächer sind.
Mein Gedanke ist, dass z.B. die Regionen München, Düsseldorf und Hamburg gleich geclustert werden. Gehen wir von aus, dass BIP, Einkommen und Unternehmenanzahl für München und Düsseldorf vorhanden sind, allerdings BIP für Hamburg nicht, dass sich folglich das BIP in Hamburg aufgrund der Gleichheit aller anderen Varibalen bestimmen lässt. Nur welche Methodik ist hier die passende?
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von dutchie »

hallo florian

Also wenn du die fehlenden werte imputieren willst
machst du multiple Imputation, rechnest clusteranalyse und vergleichst die ergebnisse auf konstanz.
du schätz quasi die fehlenden wert durch die vorhandenen...
aber dann kommt es drauf an welche werte wie oft fehlen, wenn das eine gewisse dimension übersteigt
erzwingst du eventuell eine clusterlösung die nicht real ist....
ich würde erst mal gar nicht auf den button cluster drücken sondern versuchen logisch zu clustern...
nach vorhandener Information und theoretischer vorgaben der relevanz der variablen bezüglich strukturstärke...

gruß dutchie
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Danke für die schnelle Antwort :-)

Wie viele Durchgänge macht man denn bei der MI normal?

Gibt es Empfehlungen?
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Ich habe nun die 5 Imputationsrunden, die von SPSS vorgeschlagen werden, durchgeführt.

Im nächsten Schritt habe ich eine hier.Clusteranalyse durchgeführt.

Leider bekomme ich nun nicht wie in der Lin.Regression pooled Data angezeigt.

Wie kann ich diese nun geschlossen in einer Clusteranalyse darfstellen, und die "passendsten" Werte der Imputation berücksichtigen?

Ich freue mich auf Eure Antworten:-) Ihr würdet mir sehr helfe...

Grüße
Florian
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von dutchie »

Hallo Florian

Poolen brauchst du nicht, was soll er poolen,
du kannst doch einfach pro Clusteranalyse die Zugehörigkeit zum Cluster abspeicheren
und die Lösungen dann vergleichen.
Was heist passendsten ???? vorsicht vorsicht, nicht dass du dir die lösung raussuchst die du willst
da sind zufallskomponenten eingebaut die nur zufällig in deine richtung weisen können.
Außerdem: man imputiert nur wenn man muss!!!!
bin mir nicht sicher ob das bei dir der Fall ist!

gruß
dutchie
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Ein finaler Wert wäre gut, das meine ich unter pooled, genau wie in der Reg.Analyse.

Ich habe es so gemacht wie Du sagtest. Als ich dann aber Z-standardisiert habe und nochmals alles rechnete, hat es mir alles zerschossen und ich habe anstelle von 4 nun 6 Cluster und sogar noch unterschiedliche Cluster in fast jedem Imputationsverlauf.

:-/

Mit passendste meinte ich eig. den zutreffendsten Wert als Ergebniss der Imputationen.
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von dutchie »

also irgend wie???

stell dir vor jeder landkreis hat eine unterscheidliche strukturstärke
das gibt es soviele cluster wie landkreise?
gruß
FlorianD
Beiträge: 7
Registriert: 27.08.2018, 20:05

Re: Clusteranalyse mit fehlenden Daten.

Beitrag von FlorianD »

Wie meinst du?
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten