Macht eine Transformation Sinn?

Fragen und Diskussionen rund um die Statistik und deren Anwendung.
Antworten
Cellschock
Beiträge: 8
Registriert: 19.03.2019, 11:05

Macht eine Transformation Sinn?

Beitrag von Cellschock »

Hallo zusammen,

ich habe mehrere Fragen an euch, aber erst mal erkläre ich euch mein Problem: Ich habe ein Pulver, was ich mit einer Bindemittellösung zu einem größeren Granulat agglomeriere. Ich werte nach der Partikelgröße aus, wie stark sie angewachsen ist. Dazu habe ich einen statistischen Versuchsplan erstellt auf 2 Stufen - ich nutze ein kommerzielles Programm (Design Expert). Bereits während der Versuche habe ich festgestellt, dass je nachdem welche Prozessparameter angewendet werden, eine starke Agglomeration eintreten kann, aber auch überhaupt keine Agglomeration auftritt und das Pulver annähernd seine Anfangsgröße behält.

Frage 1) Nach meinem Verständnis wird bei der Varianzanalyse (ANOVA) ein F-Test durchgeführt, der von einer Normalverteilung ausgeht oder?

Ich habe meine Partikelgrößendaten spaßeshalber mal in Matlab eingegeben, ein Histogramm erstellt und mit Jarque-Bera- und Lilliefors-Test auf Normalverteilung getestet. Das Histogramm zeigt eine Schulter nach rechts an, nach links hin hört die Kurve schlagartig auf (unzwar genau dann, wenn gar nicht agglomeriert wurde und die Partikelgröße konstant geblieben ist). Beide Tests auf Normalverteilung zeigen erwartungsgemäß an, dass keine Normalverteilung vorliegt. Das ergibt auch durchaus Sinn für mich.

Ich möchte dennoch mit dem statistischen Versuchsplan nach dem Partikelgrößenzuwachs auswerten.

Frage 2) Wenn ich keine Normalverteilung habe, kann ich dann überhaupt eine ANOVA machen?

Ich habe diese Annahmen einer Normalverteilung einfach mal ignoriert und die ANOVA durchführen lassen. Man wird gewissermaßen durch das Programm durch die verschiedenen Phasen geleitet.

1. Als erstes soll man sein Modell wählen (z.B. Linear, Berücksichtigung von 2-fach Wechselwirkungen, quadratische Effekte etc.). Logischerweise kann ich bei einem 2-stufigem Versuchsplan nicht auf quadratische Effekte testen. Der Plan ist so konstruiert, dass Haupteffekte mit 3-fach Wechselwirkungen vermengt sind und 2-fach Wechselwirkungen miteinander vermengt sind. Ich habe ausgewählt, dass ich nur Haupteffekte betrachten will.
2. Als nächstes wählt das Programm signifikante Variablen aus. Ich habe angegeben, dass es das nach dem Akaike-Kriterium (rückwärts) machen soll. Ich hätte aber genauso gut auch nach p-Wert auswählen können. Von meinen ursprünglich 9 Parametern bleiben noch 5 übrig (diese besitzen alle einen p-Wert von unter 0,05).
3. Nun kann ich mir die Ergebnisse der ANOVA anzeigen lassen. Mein Modell ist signifikant mit einem p-Wert von unter 0,05 und ich habe ein R² von etwa 0,78. Meines Wissens nach kann ich also 78% der Streuung mit den ausgewählten Variablen erklären.
4. Der nächste Reiter zeigt ein paar weitere Tests an. Ich habe es mal als Bild unter folgendem Link angehangen:
https://ibb.co/C888XvC
Im ersten Bild ist eine leichte S-Kurve zu sehen. Ich finde aber nach dem "Fat-Pencil-Test" sieht es eigentlich gar nicht so dramatisch aus. Im nächsten Bild werden mir die Residuen angezeigt. Würde ich es mit meiner geringen Erfahrung beurteilen, hätte ich gesagt, dass es eigentlich auch ganz ok aussieht. Vielleicht sind die Residuen ganz links und ganz rechts etwas hoch und somit ganz leicht ungleich verteilt. Bis hier hin habe ich eine ANOVA auch schon mal analog mit Musterdaten durchgeführt. Als nächstes Bild folgt aber die Darstellung des Box-Cox-Plots, die ich selber noch nie durchgeführt habe. Ok, scheinbar sagt mir dieser Plot, ob ich transformieren soll oder nicht. Und in meinem speziellen Fall schlägt er eine inverse square root Transformation vor. Nach etwas Recherche stelle ich fest, dass man diese Transformation durchführen kann, wenn die Residuen etwas Trichterförmig aussehen - mit etwas Fantasie ist das bei mir vielleicht auch der Fall (wobei rein optisch finde ich die Verteilung meiner Residuen eigentlich nicht so schlimm).
5.) Ich gehe also wieder an den Anfang zurück und kann über das Programm auswählen, dass es meine Daten automatisch transformiert mit der inverse square root Transformation. Das Spiel beginnt von vorn, ich wähle das Modell aus (linear -> nur Haupteffekte) und es bleiben dieses Mal nur noch 3 von 9 Parametern als signifikant übrig (p-Wert unter 0,05). Die Ergebnisse der ANOVA zeigen mir, dass mein Modell immer noch hochsignifikant ist und dieses Mal ist mein R² sogar bei 0,8. Die Tests auf Normalverteilung, Residuen und Box-Cox-Plot habe ich wieder angehangen als Bild.
https://ibb.co/cXsXmc0
Insgesamt sehen alle Diagramme leicht besser aus und beim Box-Cox-Plot wird mir auch keine Transformation mehr vorgeschlagen. Eigentlich könnte ich zufrieden sein, aber ich bin mir unsicher. Meine weiteren Fragen:

Frage 3) Ist dieses grundsätzliche Vorgehen erst mal in Ordnung, wenn man jetzt davon ausgehen würde, dass meine Daten normalverteilt sind?

Frage 4) Macht es Sinn, meine Daten zu transformieren, auch wenn die Residuenverteilung und Normalverteilung so schlecht gar nicht aussehen? Würdet ihr in diesem speziellen Fall transformieren?

Frage 5) Macht es überhaupt Sinn, meine Daten durch Transformation einer Normalverteilung anzugleichen, obwohl ich ja weiß, dass rein logisch/physikalisch gar keine Normalverteilung meiner Daten vorliegen kann? Oder macht es vielleicht gerade dadurch Sinn?

Frage 6) Was haltet ihr von diesem Box-Cox-Test?


Danke Euch schon mal!
Grüße
Marcel
dutchie
Beiträge: 2767
Registriert: 01.02.2018, 10:45

Re: Macht eine Transformation Sinn?

Beitrag von dutchie »

Hallo Cellschock,

Die Fehlervarianz muss normalverteilt sein, d.h. innerhalb jeder Stufe
muss die AV normal sein, nicht über die Stufen hinweg.
Innerhalb einer Stufe herrschen konstante Bedingungen, somit kann
die Varianz nur Fehlervarianz sein. Nicht ganz klar, ob du das so gemeint hast.

Der NV beeinflusst nur die Berechnung der Signifikanz, je größer deine Stichproben
umso irrelevanter die Verteilung, wie groß ist deine Stichprobe?
Weil deine Plots erzählen eigentlich eine andere Geschichte als eine ANOVA,
die UVs sehen eher metrisch aus.

UV: metrisch oder nominal??? Machst du ANOVA oder lin Regression?

Es ist doch neben mittlerer Partikelgröße, Streuung der Partikelgröße auch deren Verteilung
wesentliche Charakteristik der Prozesse, die agglomerieren sollen.
das ist doch real, wie kann man die Realität ändern, nur um irgendwelchen Vorausetzungen zu entsprechen.
...ich weiß nicht wo ich bin, nennen wir es einfach mal Indien..?

Wenn transformiert man die UV nicht die AV!

Zudem gibt es ja relevante Unterschied zwischen vorher, 5 sig Prädiktoren,
und nachher nur noch 3 sig!! Erklär das mal!!

Zum Modell an sich kann ich nicht sagen...kenne Prozess und die "Parameter" nicht,
aber Wechselwirkungen zu testen macht immer Sinn.

also--> nicht transformieren, sondern Stichprobengröße erhöhen.

gruß
dutchie
Cellschock
Beiträge: 8
Registriert: 19.03.2019, 11:05

Re: Macht eine Transformation Sinn?

Beitrag von Cellschock »

Hi dutchie,

dankeschön erst mal für die ausführliche Antwort. Ja, du hast Recht: ich habe da einige Sachen durcheinandergeworfen. Ich dachte tatsächlich meine Daten müssen normalverteilt sein anstelle meiner Residuen. Das hast du aber sehr gut erklärt und ich habe es jetzt verstanden. Danke :-)

AV und UV verstehe ich, aber was ist mit NV gemeint? Meine Stichprobe beinhaltet 24 Versuche und 3 zusätzliche Wiederholungen. Leider wurden die Versuche bereits vor über einem halben Jahr durchgeführt und ich kann keine Versuche mehr nachschieben. Ist eine Transformation meiner nicht ganz so gut normalverteilten Residuen dann trotzdem nicht zu empfehlen, obwohl beim Box-Cox-Plot eine inverse square root transformation empfohlen wird?

Also laut dem Statistikprogramm wird eine ANOVA durchgeführt, aber ich würde da jetzt nicht meine Hand ins Feuer legen, dass ich wirklich verstanden habe, was jetzt der genaue Unterschied zur linearen Regression ist. Also das Programm macht denke ich eine Varianzanalyse mit Bestimmung von p-Werten für die einzelnen UV und auch für das Modell. Ich verstehe die Frage allerdings nicht so recht - Macht man eine ANOVA nicht bei metrischen UV?

Ja, die Partikelgrößenverteilung untersuche ich auch. Aber bei meinem ersten Post dachte ich noch, dass meine komplette Prozessantwort (AV) normalverteilt sein muss. Nun verstehe ich, dass nur die Residuen normalverteilt sein müssen und das eine Transformation meiner AV keinen Sinn machen würde.
Zudem gibt es ja relevante Unterschied zwischen vorher, 5 sig Prädiktoren,
und nachher nur noch 3 sig!! Erklär das mal!!
Könnte ich jetzt nicht argumentieren, dass nur noch 3 sig Variablen überbleiben, weil meine Residuen vorher nicht normalverteilt waren?

Danke und Gruß
Marcel
dutchie
Beiträge: 2767
Registriert: 01.02.2018, 10:45

Re: Macht eine Transformation Sinn?

Beitrag von dutchie »

hallo

NV = normalverteilt

ANOVA : UV = Nominal, AV = metrisch
lineare Regression: UV = metrisch und AV = metrisch
mathematisch ist, das alles eins! allgemeines lineares Modell.

Wenn du die AV transformierst, manipulierst du Daten!
Da braucht es gute Gründe, z.B. wenn ich weiß, aufgrund Erfahrung
und Logik, dass der wahre reale Fehler NV ist, sich in meiner Stichproben (aus Zufall
oder aufgrund einer schiefen UV) eine schiefe AV ergabt, dann könnte man transformieren.

Bei dir spricht die Logik gegen NV.
Cellschock hat geschrieben:
18.03.2021, 16:45
Könnte ich jetzt nicht argumentieren, dass nur noch 3 sig Variablen überbleiben, weil meine Residuen vorher nicht normalverteilt waren?
Nein, du hast einen technischen Vorgang vor dir, dem einzelnem Partikel, auf den
der Prozeß wirkt, ist die Verteilung völlig egal! Und den Prozeß gilt es doch zu verstehen, oder?

Wenn du transformierst verkleinert du die Varianz der AV und deren "Lage"
und somit eventuell der Rolle der UVs. Da müsste man aber mal genauer drauf schauen.

google mal bootstrap, als Alternative bei schiefer Verteilung.
Cellschock hat geschrieben:
18.03.2021, 16:45
24 Versuche und 3 zusätzliche Wiederholungen
...könnte sein, dass du ein gemischtes Modell hast!

gruß
dutchie
Cellschock
Beiträge: 8
Registriert: 19.03.2019, 11:05

Re: Macht eine Transformation Sinn?

Beitrag von Cellschock »

dutchie hat geschrieben:
19.03.2021, 09:58
ANOVA : UV = Nominal, AV = metrisch
lineare Regression: UV = metrisch und AV = metrisch
mathematisch ist, das alles eins! allgemeines lineares Modell.
Ah ok, dann habe ich wohl eine lineare Regression.


dutchie hat geschrieben:
19.03.2021, 09:58
Cellschock hat geschrieben:
18.03.2021, 16:45
Könnte ich jetzt nicht argumentieren, dass nur noch 3 sig Variablen überbleiben, weil meine Residuen vorher nicht normalverteilt waren?
Nein, du hast einen technischen Vorgang vor dir, dem einzelnem Partikel, auf den
der Prozeß wirkt, ist die Verteilung völlig egal! Und den Prozeß gilt es doch zu verstehen, oder?
Mmh, also meine AV die ich messe, meine Partikelgröße, ist nicht die Partikelgröße eines einzelnen Partikels. In Wirklichkeit ist meine AV der Median der Partikelgröße eines ganzen Partikelkollektivs. Und tatsächlich hat die Verteilung einen kleinen Einfluss auf meinen gemessenen Median der Partikelgröße: Rein vom Messprinzip ist es wahrscheinlicher, dass große Partikel in meinem Kollektiv gemessen werden. Den Fehler schätze ich allerdings eher als gering ein.
dutchie hat geschrieben:
19.03.2021, 09:58
google mal bootstrap, als Alternative bei schiefer Verteilung.
Danke für den Tipp, das werde ich mir mal am Wochenende anschauen.

Grüße
Marcel
Cellschock
Beiträge: 8
Registriert: 19.03.2019, 11:05

Re: Macht eine Transformation Sinn?

Beitrag von Cellschock »

dutchie hat geschrieben:
19.03.2021, 09:58
google mal bootstrap, als Alternative bei schiefer Verteilung.
Hi,

ich habe mir mal das Prinzip vom Bootstrapping angeschaut. Die Idee ist auf jeden Fall sehr interessant, wie ich selbst bei geringer Stichprobenanzahl oder unklarer Verteilung verschiedene Parameter wie z.B. Mittelwert oder Konfidenzintervalle gut schätzen kann. Ich werde es bei anderen Fragestellungen auf jeden Fall im Hinterkopf behalten.

Für mein Problem, sehe ich da aber noch nicht so die Lösung darin. Letztendlich möchte ich ja wissen, welche meiner Parameter signifikant sind. Damit "extrapoliere" ich ja nur meine Datenmenge, aber selbst wenn ich dann am Ende einen guten Schätzer für meinen Mittelwert habe, kann ich dann ja nicht mehr zurückverfolgen, welche UV signifikant war bzw. den größten Einfluss auf das Partikelwachstum hat. Das ist aber das Hauptziel von mir. Ich finde, das macht am Ende meiner Prozessoptimierung mehr Sinn, wenn ich einen guten Schätzer für meine Modellparameter haben möchte - insbesondere wenn ich eine unbekannte/schiefe Verteilung habe oder sehr wenige Daten habe.

Ich finde, da macht dann die Transformation irgendwie mehr Sinn?

Oder irre ich mich?
dutchie
Beiträge: 2767
Registriert: 01.02.2018, 10:45

Re: Macht eine Transformation Sinn?

Beitrag von dutchie »

hallo Marcel

Also das ganze wird mir immer rätselhafter.

Zuerst präsentierst du eine Regression mit 24 Medianen, die Mediane setzt du
vermutlich ein um die Schiefe "auszugleichen", wenn du den Median bestimmen kannst
musst du doch die Verteilung der Partikel innerhalb jeder Versuchsbedingung kennen.

Die Verteilung der Mediane ist hinreichend normal, und trotzdem wird gejammert
aber beschreibt der Median das was passiert?
Dann transformierst du und stellst fest, dass es nicht interpretierbare Ergebnisse gibt.

Verschleierst du deine AV? Zuerst erzählst du was über Partikelgröße, dann über Mediane?

Wie entstehen die 24 Fälle aus 9 Versuchsparametern? ohne Wechselwirkungen?
Korrelieren die Parameter ? Sind den dichotom ? wie kommst du dann auf 24?
Aus meiner Sicht hast du überhaupt Problem mit Signifikanzen, oder Statistik.

Du hast 24 Versuchbedingungen und bekommst die "Parameter" nicht auseinander gefieselt,
die diese 24 Bedingungen bilden. Ist der Versuchplan mist? Und soll mit Statistik repariert werden?

Du hast die 24 Ergebnisse vor dir (vermutlich in einem Eimer)
und jetzt musst du irgendwas über den Eimerinhalt erzählen.

dutchie
Cellschock
Beiträge: 8
Registriert: 19.03.2019, 11:05

Re: Macht eine Transformation Sinn?

Beitrag von Cellschock »

dutchie hat geschrieben:
21.03.2021, 14:23
Zuerst präsentierst du eine Regression mit 24 Medianen, die Mediane setzt du
vermutlich ein um die Schiefe "auszugleichen", wenn du den Median bestimmen kannst
musst du doch die Verteilung der Partikel innerhalb jeder Versuchsbedingung kennen.
Mediane einzusetzen ist im Kontext von Partikelmessungen üblich. Ja, ich vermesse 100.000 Partikel, die in den Median eingehen und ich kenne die Verteilung meiner Partikel bei jeder Versuchsbedingung. Das heißt aber nicht, dass meine Fehler bei unterschiedlichen Versuchsbedingungen normalverteilt sind. Scheinbar sind sie es ja nicht.
dutchie hat geschrieben:
21.03.2021, 14:23
Die Verteilung der Mediane ist hinreichend normal, und trotzdem wird gejammert
aber beschreibt der Median das was passiert?
Ich jammere überhaupt nicht, ich habe lediglich ein paar Fragen gestellt. Ich habe nicht viele Erfahrungen mit statistischer Versuchsplanung und die Beurteilung der Normalverteilung auf einem Wahrscheinlichkeitsnetz ist auch teilweise etwas subjektiv. Ich wollte einfach eine Zweimeinung hören, ob ihr die Verteilung der Residuen als normalverteilt beurteilen würdet oder nicht.
dutchie hat geschrieben:
21.03.2021, 14:23
Dann transformierst du und stellst fest, dass es nicht interpretierbare Ergebnisse gibt.
Transformiert habe ich probeweise, weil es mir das Programm vorgeschlagen hat. Aber scheinbar wird es ja nicht unbedingt angeraten.
dutchie hat geschrieben:
21.03.2021, 14:23
Verschleierst du deine AV? Zuerst erzählst du was über Partikelgröße, dann über Mediane?
Wieso verschleiern? Das eine schließt das andere ja nicht aus. Eine einzelne Partikelgröße macht in einem Haufwerk von Millionen von Partikeln ja keine sinnvolle Aussage. Es geht um den Median der Partikelgröße und das ist auch sinnvoll.
dutchie hat geschrieben:
21.03.2021, 14:23
Wie entstehen die 24 Fälle aus 9 Versuchsparametern? ohne Wechselwirkungen?
Korrelieren die Parameter ? Sind den dichotom ? wie kommst du dann auf 24?
Wie gesagt, ich habe zunächst ein Plackett-Burman-Plan mit 12 Versuchen auf 9 Parametern gemacht. Das ist ein spezielles Screening-Design, wo man nur Haupteffekte bestimmt, die jedoch mit 2-Fach-Wechselwirkungen vermengt sind. Daraufhin habe ich nochmal ein Fold-over durchgeführt, wobei 24 Versuche rauskommen und die Haupteffekte nur noch mit Dreichfachwechselwirkungen vermengt sind.
dutchie hat geschrieben:
21.03.2021, 14:23
Aus meiner Sicht hast du überhaupt Problem mit Signifikanzen, oder Statistik.
Du hast 24 Versuchbedingungen und bekommst die "Parameter" nicht auseinander gefieselt,
die diese 24 Bedingungen bilden. Ist der Versuchplan mist? Und soll mit Statistik repariert werden?
Mag sein, ich bin auch kein Statistiker. Man muss aber auch nicht in allem ein Verschleiern von Ergebnissen unterstellen. Irgendwie ist die Hilfe aber auch viel am Thema vorbei. Der Versuchsplan ist in Ordnung und auch gar nicht Gegenstand meiner Fragen gewesen. Es soll keine Statistik repariert werden - ich habe nur gefragt, ob die Herangehensweise korrekt ist.
dutchie hat geschrieben:
21.03.2021, 14:23
Du hast die 24 Ergebnisse vor dir (vermutlich in einem Eimer)
und jetzt musst du irgendwas über den Eimerinhalt erzählen.
Ja, ist irgendwie normal, wenn man einen Versuchsplan durchführt. Das meine Residuen am Ende nicht zu 100% normalverteilt sind, konnte ich vorher schlecht planen.

Deine Hilfe bis hier hin war trotzdem gut. Es hat mir ein paar Denkanstöße gegeben und ein paar Fehler aufgezeigt. Aber jetzt driftet es etwas in bloßen Anschuldigungen ab. Ich denke, es hat nicht mehr viel Sinn.
dutchie
Beiträge: 2767
Registriert: 01.02.2018, 10:45

Re: Macht eine Transformation Sinn?

Beitrag von dutchie »

Hallo marcel,

soory, aber lese dir nochmal durch was du an welcher Stelle erzählt hat!

Und versetzt dich in meine Position, das alles zu verstehen!

gruß
dutchie
Anzeige:Statistik und SPSS: Die besten Bücher
Als Buch oder E-Book - Jetzt bestellen
spss datenanalyse
SPSS - Moderne Datenanalyse - Jetzt bestellen!
statistik datenanalyse
Statistik - Der Weg zur Datenanalyse - Jetzt bestellen!
Antworten