eingeltich dachte ich die Statistik-Vorlesung hat mich auf alles oder zumindest vieles Vorbereitet - doch weit gefehlt wie ich nun merke

Mein Problem: Ich untersuche Cross-Selling. Grundlage meiner Tabelle war eine Auswertung, wer alles ein spezielles Ausgangsprodukt gekauft hat (nennen wir es einfach mal: Skier). Die Tabelle spiegelt also alle Kunden wieder die zuvor einmal (oder öfters) Ski gekauft haben und welche "anderen" Produkte sie gekauft haben.
Sprich ich habe nun eine risiege Excel Tabelle in der auf der x Achse alle Produkte abgetragen sind (außer natürlich Ski) und auf der y Achse alle Kunden. Mittels einer 1 wird dann deutlich welche Produkte der Kunde alles gekauft hat.
Nach etwas recherche war klar ich brauche eine Korrelation.
Ich wusste noch es gibt Spearman und Pearson, so weit so gut. In meiner Firma steht SPSS zur Verfügung (womit ich mich jedoch nicht auskenne), was ich auch "nutze" (mit Hilfe)!
Da meine Datenmengen recht groß sind habe ich jetzt erst einen Versuch gemacht, sprich meine Datenmänge eingeschränkt auf Produkte bei denen ich eigentlich fast sicher von einer hohen Korrelation ausgehen kann bzw. Produkte wo ich sehr sicher weiß das sie eigentlich nicht korrelieren dürften.
Nun habe ich es durch SPSS "gejagt" - dank der Hilfe einer erfahrenen Kollegin und bekam die erster Ergebnisse.
Doch plötzlich tauchten eine Menge fragen auf! und ich merke das ich etwas zu unbekümmert an die Sache ran gegangen bin!
Ich habe beim SPSS Korrelations-Test Pearson angeklickt. Nun habe ich etwas rechachiert um mich in die Thematik tiefer einzulesen und musste dabei feststellen das ich garnicht weiß welchen Korrelationskoeffizienten ich eigentlich nehmen soll.
Bei Normalverteilung wohl Spearman und wenn das nicht / oder ordinalskalliert dann Pearson. Doch was sind meine Daten??? Es ist eine "Häufung" von nullen und einsen - mehr aber nicht. Ich wüsste nicht wie ich beurteilen soll ob meine Daten normalverteilt sind??????
==> Somit ist meine erste Frage - welchen Korrelationskoeffizienten muss ich nehmen???????
Das zweite Problem, die Signifikanz! Ich musste erst nachlesen - und nun verstehe ich darunter das "alpha" (so nannten wir es in Statistik). Eine Aussage darüber ob die Korrelation durch puren Zufall oder aufgrund einer wirklichen Beziehung zustande kam!
==> Ist das richtig???
Das dritte Problem. Ab wann ist ein Korrelationswert wirklich aussagekräftig?? Meine Werte (die ich mit Pearson) ermittelt habe sind eigentlich "wie erwartet", d.h. es gibt bei den Produkten bei denen ich es erwartet habe (und deshalb für meinen Test ausgewählt habe) Korrelationen von 0,2-0,4! Das max. ist einmal 0,499. Alle weiteren Werte sind dann absteigend. SPSS hat mir natürlich die besonders "signifikanten" Werte "makiert" mit * oder **. Heißt das nur diese Werte sind relevant und alle anderen sind zu vernachlässigen (bzw. keine nennenswerte Korrelation? bzw. ein zu hohes Signifikanzniveau?) oder ab wann kann man Korrelationen als relevant betrachten??? Ich kann mir nicht vorstellen das man dies einfach so beliebig auswählt???
Und abschließend wohl das für mich gravierenste Problem! Bringt mir eine Aussage über die Korrelation überhaupt etwas??? Bei tieferer Recherche bin ich auf den Unabhängigkeitssatz, Unkorreliertheitssatz, Linearitätssatz, Vieldeutigkeitssatz und einige weitere Sätze gestoßen die bei mir die Frage aufwerfen ob eine Korrelation überhaupt etwas aussagt - und ob dies in meinem Fall ausreicht???????
Und nun abschließd - ja ich habe noch ne Frage, ich kanns selber kaum glaube - wie kann ich die Ausgabe vom SPSS grafisch darstellen (im SPSS)?? Ich denke doch da gibts Möglichkeiten, aber selbst meine Kollegin die sich auskannte - wusste da nicht weiter.
Viel Text - aber ich wollte mein Problem exakt schilder.
Vielen Dank