Hallo zusammen,
eingeltich dachte ich die Statistik-Vorlesung hat mich auf alles oder zumindest vieles Vorbereitet - doch weit gefehlt wie ich nun merke
Mein Problem: Ich untersuche Cross-Selling. Grundlage meiner Tabelle war eine Auswertung, wer alles ein spezielles Ausgangsprodukt gekauft hat (nennen wir es einfach mal: Skier). Die Tabelle spiegelt also alle Kunden wieder die zuvor einmal (oder öfters) Ski gekauft haben und welche "anderen" Produkte sie gekauft haben.
Sprich ich habe nun eine risiege Excel Tabelle in der auf der x Achse alle Produkte abgetragen sind (außer natürlich Ski) und auf der y Achse alle Kunden. Mittels einer 1 wird dann deutlich welche Produkte der Kunde alles gekauft hat.
Nach etwas recherche war klar ich brauche eine Korrelation.
Ich wusste noch es gibt Spearman und Pearson, so weit so gut. In meiner Firma steht SPSS zur Verfügung (womit ich mich jedoch nicht auskenne), was ich auch "nutze" (mit Hilfe)!
Da meine Datenmengen recht groß sind habe ich jetzt erst einen Versuch gemacht, sprich meine Datenmänge eingeschränkt auf Produkte bei denen ich eigentlich fast sicher von einer hohen Korrelation ausgehen kann bzw. Produkte wo ich sehr sicher weiß das sie eigentlich nicht korrelieren dürften.
Nun habe ich es durch SPSS "gejagt" - dank der Hilfe einer erfahrenen Kollegin und bekam die erster Ergebnisse.
Doch plötzlich tauchten eine Menge fragen auf! und ich merke das ich etwas zu unbekümmert an die Sache ran gegangen bin!
Ich habe beim SPSS Korrelations-Test Pearson angeklickt. Nun habe ich etwas rechachiert um mich in die Thematik tiefer einzulesen und musste dabei feststellen das ich garnicht weiß welchen Korrelationskoeffizienten ich eigentlich nehmen soll.
Bei Normalverteilung wohl Spearman und wenn das nicht / oder ordinalskalliert dann Pearson. Doch was sind meine Daten??? Es ist eine "Häufung" von nullen und einsen - mehr aber nicht. Ich wüsste nicht wie ich beurteilen soll ob meine Daten normalverteilt sind??????
==> Somit ist meine erste Frage - welchen Korrelationskoeffizienten muss ich nehmen???????
Das zweite Problem, die Signifikanz! Ich musste erst nachlesen - und nun verstehe ich darunter das "alpha" (so nannten wir es in Statistik). Eine Aussage darüber ob die Korrelation durch puren Zufall oder aufgrund einer wirklichen Beziehung zustande kam!
==> Ist das richtig???
Das dritte Problem. Ab wann ist ein Korrelationswert wirklich aussagekräftig?? Meine Werte (die ich mit Pearson) ermittelt habe sind eigentlich "wie erwartet", d.h. es gibt bei den Produkten bei denen ich es erwartet habe (und deshalb für meinen Test ausgewählt habe) Korrelationen von 0,2-0,4! Das max. ist einmal 0,499. Alle weiteren Werte sind dann absteigend. SPSS hat mir natürlich die besonders "signifikanten" Werte "makiert" mit * oder **. Heißt das nur diese Werte sind relevant und alle anderen sind zu vernachlässigen (bzw. keine nennenswerte Korrelation? bzw. ein zu hohes Signifikanzniveau?) oder ab wann kann man Korrelationen als relevant betrachten??? Ich kann mir nicht vorstellen das man dies einfach so beliebig auswählt???
Und abschließend wohl das für mich gravierenste Problem! Bringt mir eine Aussage über die Korrelation überhaupt etwas??? Bei tieferer Recherche bin ich auf den Unabhängigkeitssatz, Unkorreliertheitssatz, Linearitätssatz, Vieldeutigkeitssatz und einige weitere Sätze gestoßen die bei mir die Frage aufwerfen ob eine Korrelation überhaupt etwas aussagt - und ob dies in meinem Fall ausreicht???????
Und nun abschließd - ja ich habe noch ne Frage, ich kanns selber kaum glaube - wie kann ich die Ausgabe vom SPSS grafisch darstellen (im SPSS)?? Ich denke doch da gibts Möglichkeiten, aber selbst meine Kollegin die sich auskannte - wusste da nicht weiter.
Viel Text - aber ich wollte mein Problem exakt schilder.
Vielen Dank
Korrelation - Welche, Wieso, Weshalb, Warum ?????
-
- Beiträge: 8
- Registriert: 04.11.2008, 21:08
-
- Beiträge: 81
- Registriert: 18.08.2008, 13:23
Hallo Charlie,
1. Tipp: Kauf dir ein gescheites Statistik Buch (am besten aus deiner Fachrichtung) und lies dich da ein. Einige Fragen welche ich mit einem Auge gelsen habe lassen vermuten, dass du dich noch nicht so sehr mit der Materie auseinander gesetzt hast, was schlecht ist da dann oft Hintergründe fehlen. Daher könnten manche Fragen mit einem Blick in ein Fachbuch sofort gelöst werden.
Ich als Sozialwissenschaftler empfehle:
Bortz & Döring (2008): Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler
(m.E. einfacher als das große Statistik von Bortz)
Attelsander (2008): Methoden der empirischen Sozialforschung
Dieckmann (2008): Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen
So kannst du definitiv nichts korrelieren!
Das einzige was du machen könntest im Bezug auf eine Korrelation wäream Schluss auszurechnen wieviele Dinge insgesamt ein Kunde gekauft hat und dies anschließend mit einer anderen Variable korrelieren.
M.E. ist da ein Denkfehler drin. Was willst du nachher den Beweisen? Vor dem Test sollte immer die Hypothese stehen. Daher wieder zu Tipp 1.
Daten auf Ordinalniveau können mittels Spearmans RHo korreliert werden, Normalverteilte Daten auf Intervallniveau mittels Pearsons r.
Die Bedeutung von den *, **, *** findest du in der SPSS-Hilfe und im Forum
Zu guter letzt:
Mir kommt die Sache etwas spanisch vor durch deine obigen Erläuterungen. Vielleicht habe ich da aber auch etwas falsch verstanden! Wenn ihr euch im Geschäft mit SPSS beschäftigt, werdet ihr auch dort sicherlich das eine oder andere Statistik Buch haben.
Den größten Fehler den man machen kann: SPSS öffnen und einfach mal wild durch die Gegend korrelieren ohne das man sich vorherig Gedanken über das Vorgehen, die Hypothesen, Konstrukte, Voraussetzungen und Studiendesign gemacht hat. Mit diesem Vorgehen läuft man Gefahr, dass einem später irgendjemand dass Teil um die Ohren haut
Denn auch bei Verletzung jeglicher Voraussetzungen wird das SPSS das tun was man von ihm verlangt: nämlich "dumm" rechnen und Ergebnisse produzieren. Daher Vorsicht.
Viel Erfolg weiterhin und viele Grüße
oegi
P.S. Poste doch einfach mal weiter, würde mich interessieren die Sache.
1. Tipp: Kauf dir ein gescheites Statistik Buch (am besten aus deiner Fachrichtung) und lies dich da ein. Einige Fragen welche ich mit einem Auge gelsen habe lassen vermuten, dass du dich noch nicht so sehr mit der Materie auseinander gesetzt hast, was schlecht ist da dann oft Hintergründe fehlen. Daher könnten manche Fragen mit einem Blick in ein Fachbuch sofort gelöst werden.
Ich als Sozialwissenschaftler empfehle:
Bortz & Döring (2008): Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler
(m.E. einfacher als das große Statistik von Bortz)
Attelsander (2008): Methoden der empirischen Sozialforschung
Dieckmann (2008): Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen
Ich habe eine böse Vermutung ... Kann es sein dass du in den Zeilen viele verschiedene Produkte stehen hast und dann bei jedem Produkt dass ein Kunde gakauft hast einfach eine "1" hingeschrieben hast, das heißt bei dem einen mal da, dann wieder 3 Zeilen nichts und dann wieder eine 1 und so weiter?Nach etwas recherche war klar ich brauche eine Korrelation.
So kannst du definitiv nichts korrelieren!
Das einzige was du machen könntest im Bezug auf eine Korrelation wäream Schluss auszurechnen wieviele Dinge insgesamt ein Kunde gekauft hat und dies anschließend mit einer anderen Variable korrelieren.
M.E. ist da ein Denkfehler drin. Was willst du nachher den Beweisen? Vor dem Test sollte immer die Hypothese stehen. Daher wieder zu Tipp 1.
Das verstehe ich nicht. Was willst du denn eigentlich korrelieren?Da meine Datenmengen recht groß sind habe ich jetzt erst einen Versuch gemacht, sprich meine Datenmänge eingeschränkt auf Produkte bei denen ich eigentlich fast sicher von einer hohen Korrelation ausgehen kann bzw. Produkte wo ich sehr sicher weiß das sie eigentlich nicht korrelieren dürften
es ist genau andersherum:Bei Normalverteilung wohl Spearman und wenn das nicht / oder ordinalskalliert dann Pearson.
Daten auf Ordinalniveau können mittels Spearmans RHo korreliert werden, Normalverteilte Daten auf Intervallniveau mittels Pearsons r.
Nicht ganz, du hast es vermutlich richtig verstanden aber nicht richtig ausgedrückt. Ein signifikantes Ergebniss trifft NIE eine Aussage über einen kausalen Zusammenhang. Hierzu kannst du einiges hier im Forum oder in obigen Büchern nachlesen.Eine Aussage darüber ob die Korrelation durch puren Zufall oder aufgrund einer wirklichen Beziehung zustande kam!
==> Ist das richtig???
Die Festlegung des Signifikanzniveaus hängt auch von inhaltlichen Fragestellungen ab.Ich kann mir nicht vorstellen das man dies einfach so beliebig auswählt???
Die Bedeutung von den *, **, *** findest du in der SPSS-Hilfe und im Forum
Klar hat SPSS Möglichketen zur grafischen Darstellung. Viele bearbeiten ihre Grafiken dann aber auch im Excel, da einfacher, schneller und manchen gefällt es mehr.Ich denke doch da gibts Möglichkeiten, aber selbst meine Kollegin die sich auskannte - wusste da nicht weiter.
Zu guter letzt:
Mir kommt die Sache etwas spanisch vor durch deine obigen Erläuterungen. Vielleicht habe ich da aber auch etwas falsch verstanden! Wenn ihr euch im Geschäft mit SPSS beschäftigt, werdet ihr auch dort sicherlich das eine oder andere Statistik Buch haben.
Den größten Fehler den man machen kann: SPSS öffnen und einfach mal wild durch die Gegend korrelieren ohne das man sich vorherig Gedanken über das Vorgehen, die Hypothesen, Konstrukte, Voraussetzungen und Studiendesign gemacht hat. Mit diesem Vorgehen läuft man Gefahr, dass einem später irgendjemand dass Teil um die Ohren haut
Denn auch bei Verletzung jeglicher Voraussetzungen wird das SPSS das tun was man von ihm verlangt: nämlich "dumm" rechnen und Ergebnisse produzieren. Daher Vorsicht.
Viel Erfolg weiterhin und viele Grüße
oegi
P.S. Poste doch einfach mal weiter, würde mich interessieren die Sache.
-
- Beiträge: 8
- Registriert: 04.11.2008, 21:08
Hallo oegi und danke für deine Antwort!
Ein Statistik Buch habe ich, sogar mehrere und schon einiges gelesen - ich glaube meine Statistikkentnisse sind nicht ganz so schlecht wie du vermutest. Jedoch liegen sie einfach ein paar Semester zurück und sind daher etwas "eingerostet". Ich habe mich in das Thema Korrealtion eigentlich eingelesen und denke ich liege dabei richtig - man mag mich koregieren!
Zu deiner Frage - ja ich habe eine Tabelle wo auf der X-Achse die Produkte und auf der Y-Achse die Kunden abgetragen sind. Wenn ein Kunde ein Produkt gekauft hat steht dort eine 1 ansonsten ist es eine 0 (damit SPSS damit umgehen kann).
Hyothese !?!?! Nun ja und hier fängt es ja schon an zu hacken - ich habe keine und brauche auch eigentlich keine, denn ich suche nach Cross-Selling also nach besonders starken Verknüpfungen von Kunden die ein Ausgangsprodukt (in meinem Fall Ski) und was dazu noch gekauft haben. In der Tabelle sind nur Kunden erfasst die zuvor (irgendwann) mal Ski gekauft haben und was sie neben diesen noch gekauft haben.
Datenmengen eingeschränkt? Ja ich habe einfach meine Ausgangstabelle soweit eingeschränkt das nur noch wenige Produkte in der Tabelle waren (bei diesen Produkte weiß ich zum einen das eine starke Korrelation vor liegen muss bzw. bei anderen dürfte keine Vorliegen)
Pearson/Spearman? -> gut ich habe es beim schreiben vertauscht, das war aber nicht das eigentliche Problem. Sondern vielmehr geht es darum welche bei mir zutrifft? Da meine Daten weder Normalverteilt sind (ich wüsste garnicht wie ich das bei dieser Tabelle überprüfen soll?) und ich auch keine Reihenfolge erstellen kann!
Zu den Signifikanzen: Mir ging es zum einen Darum ob ich die Signifikanzen richtig verstanden habe? und wie die Signifikanzen bei SPSS zu verstehen sind??????? Meiner Kollegin zufolge (die sich mit SPSS auskennt) "erleichtert einem SPSS das Leben" indem es die relevanten Werte makiert (mit *, bzw** usw.). Ich bezweifle dies etwas das SPSS einfach "feritge" Werte liefert.
Ein Statistik Buch habe ich, sogar mehrere und schon einiges gelesen - ich glaube meine Statistikkentnisse sind nicht ganz so schlecht wie du vermutest. Jedoch liegen sie einfach ein paar Semester zurück und sind daher etwas "eingerostet". Ich habe mich in das Thema Korrealtion eigentlich eingelesen und denke ich liege dabei richtig - man mag mich koregieren!
Zu deiner Frage - ja ich habe eine Tabelle wo auf der X-Achse die Produkte und auf der Y-Achse die Kunden abgetragen sind. Wenn ein Kunde ein Produkt gekauft hat steht dort eine 1 ansonsten ist es eine 0 (damit SPSS damit umgehen kann).
Hyothese !?!?! Nun ja und hier fängt es ja schon an zu hacken - ich habe keine und brauche auch eigentlich keine, denn ich suche nach Cross-Selling also nach besonders starken Verknüpfungen von Kunden die ein Ausgangsprodukt (in meinem Fall Ski) und was dazu noch gekauft haben. In der Tabelle sind nur Kunden erfasst die zuvor (irgendwann) mal Ski gekauft haben und was sie neben diesen noch gekauft haben.
Datenmengen eingeschränkt? Ja ich habe einfach meine Ausgangstabelle soweit eingeschränkt das nur noch wenige Produkte in der Tabelle waren (bei diesen Produkte weiß ich zum einen das eine starke Korrelation vor liegen muss bzw. bei anderen dürfte keine Vorliegen)
Pearson/Spearman? -> gut ich habe es beim schreiben vertauscht, das war aber nicht das eigentliche Problem. Sondern vielmehr geht es darum welche bei mir zutrifft? Da meine Daten weder Normalverteilt sind (ich wüsste garnicht wie ich das bei dieser Tabelle überprüfen soll?) und ich auch keine Reihenfolge erstellen kann!
Zu den Signifikanzen: Mir ging es zum einen Darum ob ich die Signifikanzen richtig verstanden habe? und wie die Signifikanzen bei SPSS zu verstehen sind??????? Meiner Kollegin zufolge (die sich mit SPSS auskennt) "erleichtert einem SPSS das Leben" indem es die relevanten Werte makiert (mit *, bzw** usw.). Ich bezweifle dies etwas das SPSS einfach "feritge" Werte liefert.
-
- Beiträge: 8
- Registriert: 04.11.2008, 21:08
ein kleiner Nachtrag noch!
diese Auswertung ist nur ein relativ kleiner und beschränkter Teil meiner Arbeit und daher kann ich mich auch (aus zeitlichen Gründen) nicht ganz in die Matherie einarbeiten und 2 Wochen nur Statistik Bücher wälzen.
Ich weiß man wird jetzt sagen - "das musst du aber wenn du es richtig machen willst ....". Sicher das mag stimmen - doch wenn dein Thema X ist und nur ca. 20% ausmacht von deinem eigentlichen Thema Y, dann kannst du dich nicht über 50% der Zeot damit beschäftigen - obwohl du es vielleicht wolltest. Daher wende ich mich auch an das Forum - ich bin so ehrlich
Wobei das nicht heißt das ich meine Probleme hieher einfach abschiebe, aber ich bin nicht weitergekommen und wollte mal wissen ob das was ich bisher gemacht habe und worauf meine weiteren Überlegungen bauen überhaupt richtig sind?!?!
diese Auswertung ist nur ein relativ kleiner und beschränkter Teil meiner Arbeit und daher kann ich mich auch (aus zeitlichen Gründen) nicht ganz in die Matherie einarbeiten und 2 Wochen nur Statistik Bücher wälzen.
Ich weiß man wird jetzt sagen - "das musst du aber wenn du es richtig machen willst ....". Sicher das mag stimmen - doch wenn dein Thema X ist und nur ca. 20% ausmacht von deinem eigentlichen Thema Y, dann kannst du dich nicht über 50% der Zeot damit beschäftigen - obwohl du es vielleicht wolltest. Daher wende ich mich auch an das Forum - ich bin so ehrlich
Wobei das nicht heißt das ich meine Probleme hieher einfach abschiebe, aber ich bin nicht weitergekommen und wollte mal wissen ob das was ich bisher gemacht habe und worauf meine weiteren Überlegungen bauen überhaupt richtig sind?!?!
-
- Beiträge: 81
- Registriert: 18.08.2008, 13:23
Hallo Charlie,
danke für die Antwort. Eillige Antwort von mir:
Dies solltest du unbedingt mit deinen Betreuer (insofern es sich um eine Abschlussarbeit oder um einen Bericht im Betrieb handelt) kurzschließen.
Was könntest du meines Erachtens tun (bzw. was würde ich tun?)?:
1. eine neue Variable erstellen die "Produktkategorie heißt"
2. Diese hat X Ausprägungen, wobei X der Anzahl von Produktkategorien entspricht die du gebildet hast (Bsp. Lebensmittel, Hi-Fi, Ski-Zubehör, Computer, etc....). X sollte nicht zu wahnsinnig groß sein.
3. Häufigkeitsberechnungen durchführen und in Kreuztabellen darstellen.
4. Chi-Quadrat-Test auf Unterschiede.
--> Wenn jemand eine bessere Idee auf die schnelle hat, bitte korrigieren.
"Ich denke das Medikament schadet der Niere, daher überprüfe ich das mal und da ich davon ausgehe, dass es in der Leber nichts macht, lass ich dass mal "
So, ich hoffe ich konnt dir helfen! Auch wenn ich der Meinung bin (sogar der festen Überzuegung) dass dein derzeitiges Vorgehen falsch ist. Schau dir den Vorgang einer Korrelatiosnrechnung nochmal an, dann wirst du es vermutlich selber erkennen.
Mir ist immer noch nicht klar welche Variablen du überhaupt korrelierts. Die eine mit den Produkten ist klar, und die zweite? Spielt aber jedoch jetzt auch nur noch eine kleine Rolle. Wie gesagt schau dir mal das datenmaterial an und überlege ws du damit machen kannst!
Ich finde es auch überhaupt nicht schlimm bei solch einer Aufgabe bei deskriptiven Auswertungen zu bleiben bevor man sich mit irgendwelchen statistischen Berechnungen verhaspelt. SChöne Häufigkeitstabellen und Grafiken sagen oftzmals mehr als Test mit gebrochenen Voraussetzungen!
Viel Erflog
Grüße
oegi
danke für die Antwort. Eillige Antwort von mir:
Definitiv nicht korrelationsfähiges Datenmaterial da es sich um eine dichotom nominalskalierte Variable handelt. Es ist unmöglich solch eine Variable zu korrelieren.(...) Wenn ein Kunde ein Produkt gekauft hat steht dort eine 1 ansonsten ist es eine 0 (damit SPSS damit umgehen kann).
Dies solltest du unbedingt mit deinen Betreuer (insofern es sich um eine Abschlussarbeit oder um einen Bericht im Betrieb handelt) kurzschließen.
Was könntest du meines Erachtens tun (bzw. was würde ich tun?)?:
1. eine neue Variable erstellen die "Produktkategorie heißt"
2. Diese hat X Ausprägungen, wobei X der Anzahl von Produktkategorien entspricht die du gebildet hast (Bsp. Lebensmittel, Hi-Fi, Ski-Zubehör, Computer, etc....). X sollte nicht zu wahnsinnig groß sein.
3. Häufigkeitsberechnungen durchführen und in Kreuztabellen darstellen.
4. Chi-Quadrat-Test auf Unterschiede.
--> Wenn jemand eine bessere Idee auf die schnelle hat, bitte korrigieren.
Genau, deshalb haben sich auch Fehler eingschlichen. Die Bildung von Hypothesen ist essentiell. Das ist sonst wie Autofahrn ohne Reifen.Hyothese !?!?! (...) ich habe keine und brauche auch eigentlich keine
Dieses Vorgehen ist nicht sauber. Wenn man weiß!!! dass etwas zusammenhängt, wieso muss man es denn dann noch überprüfen? Dass "dürfte" habe ich jetzt mal überlesen. Wenn ich dran denke dass ähnlich Test's auch in der Medikamentenforschung verwendet werden:bei diesen Produkte weiß ich zum einen das eine starke Korrelation vor liegen muss bzw. bei anderen dürfte keine Vorliegen
"Ich denke das Medikament schadet der Niere, daher überprüfe ich das mal und da ich davon ausgehe, dass es in der Leber nichts macht, lass ich dass mal "
Wie oben, keine Korrelationsrechnung möglichPearson/Spearman? -> gut ich habe es beim schreiben vertauscht, das war aber nicht das eigentliche Problem. Sondern vielmehr geht es darum welche bei mir zutrifft? Da meine Daten weder Normalverteilt sind (ich wüsste garnicht wie ich das bei dieser Tabelle überprüfen soll?) und ich auch keine Reihenfolge erstellen kann!
So, ich hoffe ich konnt dir helfen! Auch wenn ich der Meinung bin (sogar der festen Überzuegung) dass dein derzeitiges Vorgehen falsch ist. Schau dir den Vorgang einer Korrelatiosnrechnung nochmal an, dann wirst du es vermutlich selber erkennen.
Mir ist immer noch nicht klar welche Variablen du überhaupt korrelierts. Die eine mit den Produkten ist klar, und die zweite? Spielt aber jedoch jetzt auch nur noch eine kleine Rolle. Wie gesagt schau dir mal das datenmaterial an und überlege ws du damit machen kannst!
Ich finde es auch überhaupt nicht schlimm bei solch einer Aufgabe bei deskriptiven Auswertungen zu bleiben bevor man sich mit irgendwelchen statistischen Berechnungen verhaspelt. SChöne Häufigkeitstabellen und Grafiken sagen oftzmals mehr als Test mit gebrochenen Voraussetzungen!
Viel Erflog
Grüße
oegi