Testen auf Normalverteilung?

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
Parametriker
Beiträge: 32
Registriert: 05.12.2009, 09:23

Testen auf Normalverteilung?

Beitrag von Parametriker »

Hallo,

ich habe zwei Fragen zur Testung auf Normalverteilung:

1) Wenn ich mehrere zusammengehörige Datensätze habe, die aber jeweils einzeln nur eine sehr geringe Stichprobengröße aufweisen (z.B. n=3), dann ist eine sinnvolle Analyse auf Normalverteilung innerhalb der einzelnen Datensätze nicht möglich. Nehme ich aber alle zusammengehörigen Datensätze zusammen (alle Behandlungen incl. Kontrolle, z.B. 9 Datensätze), dann komme ich insgesamt auf 27 Werte.
Sehe ich es richtig, dass für die Verwendung von parametrischen Hypothesen-Test wie der ANOVA nicht die Werte innerhalb eines einzelnen Datensatzes normalverteilt sein müssen, sondern die Residualien (engl. "residuals")?

2) Zur Testung auf Normalverteilung gibt es verschiedene formale Tests wie z.B. den D'Agostino-Pearson oder den Shapiro-Wilks Normalitätstest. Oder aber visuelle Tests wie das Plotten der Residualien oder ein QQ-Plot.
Erstere liefern einen p-Wert. Gibt es für den "Residual Plot" auch einen Wert, den man heranziehen kann, um die Annäherung an die Normalverteilung quantifizieren zu können, oder ist das immer nur ein visuelles Einschätzen?
Ich kann zum Beispiel eine lineare Regression im "Residual Plot" durchführen. Im Idealfall würde ich eine horizontale Gerade erhalten mit einer Steigung von 0 und einem y-Achsenabschnitt von 0. Aber aber wann ist es eine große Abweichung von der Normalverteilung und wann noch nicht?
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Testen auf Normalverteilung?

Beitrag von dutchie »

hallo parametriker

1) Das was zusammen gehöhrt sollte man nicht trennen
Wenn ich 27 Messwerte einer Variablen habe, warum stehen die in unterschiedlichen Datensätzen?
Die Verteilung einer Variable ist eine wesentliche Eigenschaft der Variable und somit von Interesse
und nicht als Vorrausetzung von irgend einem Test,
Da kommt darauf an, wenn Datensatz 1 von Männer und Datensatz 2 von Frauen und der Unterschied
zwischen denen interessiert, dann... Von jede Person wird y aufgrund einer Variable x (UV) geschätzt,
y - E(y/x)= Residuum, das Residuum ist der Schätzer der Störgröße, die individuelle Störgröße solle NV
sein damit getestet werden kann.

2) Ein test genügt im allgemeinen nicht, man will auch wissen wenn nicht NV, wie die Abweichung sich gestaltet,
also Test plus Plot. Die Tests funktionieren im Prinzip so wie im Plot visualisiert, als abweichung zwischen erwartung und ergebnis.
Wenn du im Residual Plot linear korrelierst produzierst du Residuen, die du im Residual Plot analysieren kannst, indem du linear korrelierst,
was dazu führt, dass du Residuen produzierst, die du im Plot darstellen kannst...
Ich weiß nicht ob es eine gute Idee ist wenn der Test auf NV, davon abhängt dass eine NV vorliegt.

gruß
dutchie
Parametriker
Beiträge: 32
Registriert: 05.12.2009, 09:23

Re: Testen auf Normalverteilung?

Beitrag von Parametriker »

Hallo dutchie,
dutchie hat geschrieben:
1) Das was zusammen gehöhrt sollte man nicht trennen
Wenn ich 27 Messwerte einer Variablen habe, warum stehen die in unterschiedlichen Datensätzen?
Vielleicht sollte ich das Ganze etwas konkreter beschreiben. Es geht um Genexpressionsanalysen. Zellen wurden mit 8 unterschiedlichen Substanzen stimuliert und einmal unstimuliert gelassen, dies ergibt die 9 Datensätze. Zu jeder Stimulation sowie der Kontrolle gibt es 3 Replikate. Es macht natürlich keinen Sinn, alle 27 Messwerte in einen Pott zu werfen. Und sofern deutliche Effekte durch die Substanzen zu verzeichnen sind, ist es auch eher unwahrscheinlich, dass die Daten selbst im Gesamten normalverteilt sind.

Es geht hier in diesem Fall nicht um eine Korrelationsanalyse, sondern darum, ob statistisch signifikante Unterschiede durch die Behandlungen zu verzeichnen sind. Es gibt also letztlich nur y-Werte, keine x-Werte.
2) Ein test genügt im allgemeinen nicht, man will auch wissen wenn nicht NV, wie die Abweichung sich gestaltet,
also Test plus Plot. Die Tests funktionieren im Prinzip so wie im Plot visualisiert, als abweichung zwischen erwartung und ergebnis.
Wenn du im Residual Plot linear korrelierst produzierst du Residuen, die du im Residual Plot analysieren kannst, indem du linear korrelierst, was dazu führt, dass du Residuen produzierst, die du im Plot darstellen kannst...
Die Tests wie nach D'Agostino-Pearson funktionieren jedoch erst aber einer gewissen Mindest-Stichprobengröße und wenn diese gerade mal so überschritten ist, dann funktionieren sie auch noch nicht wirklich gut. Darum der Residuen-Plot.

Nur halt suche ich mindestens einem quantititativen Parameter, den ich aus dem Residuen-Plot ziehen kann, und nach Richtwerten, wie ich diesen einschätzen kann. So wie es beispielsweise Richtwerte dafür gibt, was als eine schwache, mittlere, starke und sehr starke Korrelation betrachtet wird.

Hier ist beispielsweise dargestellt, wie solche Residuen-Plots und entsprechende Abweichungen aussehen können, aber eben ohne quantitative Parameter.
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Testen auf Normalverteilung?

Beitrag von dutchie »

hallo

die Stufen der Behandlung sind dein X

wenn du das ganze non parametrisch angehst, ersparst du dir das NV geteste.
irgend ein exaktes Verfahren, bootstrap...
Sind die 9 Stufen nominal, oder metrisch?
Parametriker hat geschrieben:ur halt suche ich mindestens einem quantititativen Parameter, den ich aus dem Residuen-Plot ziehen kann,
dererlei ist mir unbekannt, und auch unnötig, du brauchst eigentlich keine NV

gruß
dutchie
Parametriker
Beiträge: 32
Registriert: 05.12.2009, 09:23

Re: Testen auf Normalverteilung?

Beitrag von Parametriker »

dutchie hat geschrieben:hallo

die Stufen der Behandlung sind dein X

wenn du das ganze non parametrisch angehst, ersparst du dir das NV geteste.
irgend ein exaktes Verfahren, bootstrap...
Sind die 9 Stufen nominal, oder metrisch?
Die 9 Stufen sind nominal, sprich zu jedem Datensatz, wie ich es nenne, gibt es die Bezeichnung für die Behandlung mit Substanz XY.

Also würdest du beispielsweise den Friedman-Test (im Falle von gepaarten Daten) oder den Kruskall-Wallis-Test (im Falle von ungepaarten Daten) anstatt einer ANOVA vorschlagen? Gibt es für diese ebenso wie die ANOVA "(post-hoc) multiple comparison" Tests, denn die wichtigste Frage ist hier, wo genau signifikante Unterschiede zu beobachten sind?
Parametriker hat geschrieben:ur halt suche ich mindestens einem quantititativen Parameter, den ich aus dem Residuen-Plot ziehen kann,
dutchie hat geschrieben:dererlei ist mir unbekannt, und auch unnötig, du brauchst eigentlich keine NV
Wenn ich mich für eine nicht-parametrische Analysemethode entscheide, willst du damit sagen, richtig?
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Testen auf Normalverteilung?

Beitrag von dutchie »

hallo

UV also keine Dosis oder so was, sondern in dem Sinne Aspirin, Parazeta,Arsen...nominal eben

1) du checkst die Verteilung der 27 Werte
wenn NV ist da gut!!! auch für die Residuen, weil nicht zu erwarten ist, dass die Stufen der UV
unterschiedlich bezüglich der Varianz oder Verteilung der AV aktiv sind!!
2) deskriptiv da bleibst alles auf intervallniveau m sd ...grafiken...
nicht mit Rängen rundaddeln.
3)ANOVA als ob nichts wäre --->
weil: gibt es einen Grund an der NV zu zweifeln? gibt es einen Grund an der Varianzhomgentät zu zweifeln?
wenn nein (siehe obige auswertung 1 und 2) dann gilt
unter der Voraussetzung XYZ ist p so und so (ANOVA) dieser Satz ist immer richtig!!!
nur p kann falsch sein!!!!
4) plus H-Test (nicht friedmann, wieso auf einmal gepaart?) plus Kontraste U-test oder sowas
plus Bootstrap zur p bestimmung, absicherung....Zweimal, mehrmals testen, wenn alle test zu selben
ergebniss führen gut so, wenn nicht H0 nicht ablehnen.
5)n erhöhen ...
6)fertig

gruß
Dutchie
Parametriker
Beiträge: 32
Registriert: 05.12.2009, 09:23

Re: Testen auf Normalverteilung?

Beitrag von Parametriker »

Anscheinend gibt es sowas wie ein Maß dafür, wie genau erwaretete und tatsächliche Werte beieinanderliegen.

Das Ganze nennt sich Ryan-Joiner Test.

Zitat aus der Minitab-Hilfe:
"Der Ryan-Joiner Test liefert einen Korrelationskoeffizienten, der die Korrelation zwischen Ihren Daten und den Normalwerten Ihrer Daten anzeigt.
Wenn der Korrelationskoeffizient bei 1 liegt, liegen Ihre Daten nahe an der Geraden, die in einem Wahrscheinlichkeitsnetz für Normalverteilungen als Maß für eine Normalverteilung gilt. Wenn der Wert unter den angemessenen kritischen Wert fällt, verwerfen Sie die Nullhypothese der Normalverteilung."

Muss mich noch genauer damit beschäftigen, aber ich denke, dass ist in etwa eine quantitative Einschätzung für einen QQ-Plot oder Ähnliches, den ich natürlich auch mit den Residuen durchführen kann.
dutchie
Beiträge: 2762
Registriert: 01.02.2018, 10:45

Re: Testen auf Normalverteilung?

Beitrag von dutchie »

hallo

aha...interessant... vielen dank für die info
aber lese gerade:
The Ryan-Joiner test is essentially equivalent to the Shapiro-Francia test

gruß
dutchie
Parametriker
Beiträge: 32
Registriert: 05.12.2009, 09:23

Re: Testen auf Normalverteilung?

Beitrag von Parametriker »

Ah, OK. Ebenfalls danke für die Info. Das wusste ich auch nicht, dass diese zwei Tests praktisch äquivalent sind. Beide sind keine Tests, die in der von mir bisher benutzten Statistik-Software vefügbar waren. Daher waren sie mir nicht geläufig.
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten