Allgemein: wie fehlende Daten ersetzen in SPSS??

Fragen und Diskussionen rund um die Arbeit mit SPSS. Für allgemeine Statistik-Themen, die nicht mit SPSS zusammenhängen, bitte das Statistik-Forum nutzen.
Antworten
Mariekje
Beiträge: 4
Registriert: 02.05.2013, 11:59

Allgemein: wie fehlende Daten ersetzen in SPSS??

Beitrag von Mariekje »

Hallo,

ich hatte hier eben schon eine Frage zu dem Thema gestellt, aber leider kam nun raus, dass ich wohl einen anderen Weg einschlagen muss, daher nun folgende Frage:

Wie ersetze ich in SPSS am besten fehlende Werte? Ich habe schon rausgefunden, dass man das über "Transformieren" --> "Fehlende Werte" macht. Hier kann man dann auswählen, auf welche Art man ersetzt, nämlich durch den:

1. Zeitreihen Mittelwert
2. Mittel der Nachbarpunkte
3. Median der Nachbarpunkte
4. Lineare Interpolation
5. Linearer Trend am Punkt

Was wählt man nun wann? Was ist am "besten"/genauesten?
Ich hatte eben den Mittel der Nachbarpunkte gewählt und nun ein signifikantes Ergebnis. Für's erste natürlich erfreulich, ABER: wie aussagekräftig ist das nun??

Danke schon mal!
Lieben Gruß
Mariekje
drfg2008
Beiträge: 2391
Registriert: 06.02.2011, 19:58

re

Beitrag von drfg2008 »

das wird nicht so pauschal zu beantworten sein, denn es hängt von so vielen verschiedenen Bedingungen ab.

In Zeitreihen wäre ggf. der Mittelwert der Nachbarpunkte möglich, wenn nur ein Wert ersetzt werden muss.

Ansonsten möglichst auf ein Ersetzen verzichten.

Insgesamt ist diese Frage eine Wissenschaft für sich. Die PISA-Studie z.B. verwendet ein probabilistisches Modell (sehr umstritten). Die Grenzen zwischen Messen und Kreieren sind hier fließend.
drfg2008
Mariekje
Beiträge: 4
Registriert: 02.05.2013, 11:59

Beitrag von Mariekje »

Hallo,

danke für deine Antwort!
Ich habe mich nun auch eigentlich dafür entschieden, die fehlenden Daten nicht zu ersetzen, da dies bei diesen Daten auch nicht so einen Sinn macht, denke ich. Die Antworten sind sehr unterschiedlich...

Nun stehe ich allerdings vor dem Problem, dass SPSS mir gleich das ganze Kind rausschmeisst, wenn ich damit rechnen will, anstatt nur des fehlenden Wertes.
Kurz zur Erklärung: Ich habe eine Experimentalgruppe (EG) und eine Kontrollgruppe (EG). Leider ist die SP sehr klein (16 Kinder insgesamt, je Gruppe 8 ). Die EG hatte eine Intervention mit einem Tier bekommen, die KG ohne. Die Messung erfolgt über 8 Std. (also jede Stunde eine Messung).
Nun wollte ich gucken, ob die EG im Vergleich zur KG sig. besser ist (mehr Vertrauen zeigt). Wenn ich jetzt aber ein allg. lineares Modell mit Messwiederholung anwenden will, wirft mir SPSS jedes Kind, dass irgendwo einen fehlenden Wert hat, raus. So bleiben mir dann in der KG noch 5 Kinder und in der EG spektakuläre 0. Bringt natürlich herzlich wenig.
Ich dachte, es liegt vielleicht daran, dass die fehlenden Werte nur mit einem Punkt definiert waren und habe deshalb überall eine 999 eingegeben und diese unter "Variablenansicht" als fehlenden Wert deklariert. Bringt aber leider nichts...
Ich habe nun jede Stunde einzeln mit einer einfaktoriellen ANOVA gerechnet, aber hier geht mir natürlich der schöne Zeitverlauf verloren, den ich unbedingt haben wollte. Also: Zeigt die EG im Verlauf von 8 Std. mehr Vertrauen, als die KG?

Ich verstehe nicht, warum man SPSS nicht irgendwie sagen kann, dass es NUR die fehlenden Werte, nciht gleich die ganze Versuchsperson rauswerfen soll! Oder mach ich einfach nur irgendwas falsch??
Ansonsten irgendein Tip, wie ich den Effekt über die Zeit hinweg beschreiben kann?
Beim stundenweisen Vergleich kam jetzt raus, dass die EG in Std. 2 und Std. 6 überlegen war, ansonsten nicht.... leider nicht so berauschend.

Liebe Grüße
Generalist
Beiträge: 1733
Registriert: 11.03.2010, 22:28

Beitrag von Generalist »

Ich verstehe nicht, warum man SPSS nicht irgendwie sagen kann, dass es NUR die fehlenden Werte, nciht gleich die ganze Versuchsperson rauswerfen soll! Oder mach ich einfach nur irgendwas falsch??
Da kann doch SPSS nichts für. Das ist eine Anforderung des Verfahrens Varianzanalyse mit Messwiederholungen.
Ansonsten irgendein Tip, wie ich den Effekt über die Zeit hinweg beschreiben kann?
Fehlende Werte stellen kein Durchführungsproblem dar im Falle von Mehrebenenmodellen, die gibt es auch in SPSS. Allerdings brauchst Du zur Durchführung dafür allem Anschein nach einen Fachmann.

Vielleicht kommst Du auch mit einem simplen Ersetzungsverfahren wie hot deck imputation durch.
Beim stundenweisen Vergleich kam jetzt raus, dass die EG in Std. 2 und Std. 6 überlegen war, ansonsten nicht....
Bei wiederholtem Testen mit dem einhergehenden erhöhtem Risiko falsch-positiver Befunde mußt Du normalerweise erstmal das Signifikanzniveau anpassen.
vibeech
Beiträge: 2
Registriert: 21.05.2013, 12:44

Initialisierungswert für Multiple Imputation

Beitrag von vibeech »

Hallo zusammen,
ich versuche gerade die fehlenden Werte in meinem Datensatz mittels multipler Imputation zu ersetzen und scheitere bereits an dem Zufallsgenerator. :cry:
Ich möchte meine Ergebnisse später replizieren, daher muss ich den Initialisierungswert festlegen, nun meine Frage:
Woran orientiert sich dieser Wert, also wie lege ich fest, welchen Wert ich eintrage?

Vielen Dank schon mal im Voraus!
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten