erstmal vorneweg, ich bin nicht gerade ein Ass in Statistik, ich bitte euch daher um Nachsicht, falls ich hier irgendwas doofes frage.
Ich habe jedenfalls eine Aufgabe bekommen, eine Datenbank mit mindestens zwei multivariaten Verfahren (einmal mit interdependence technique - PCA, Faktoranalyse, Clusteranalyse etc. und dann noch einmal mit dependence technique - z.B. linearer Regression; include some modeling - hierarchical model building, maybe non-linear regression, including dummy variables) zu untersuchen. Ein Tutor hat mir folgende frei zugängliche Datenbank vorgeschlagen: "https://archive.ics.uci.edu/ml/datasets/Wine+Quality"
Nu zu meinem Problem.
Wenn ich die Datenbanken aufmache, ob mit Rotwein oder Weißwein, ich komme nicht über den "KMO- und Bartlett-Test" hinaus, denn dieser gibt mir einen zu niedrigen Wert aus (kleiner als 0,5) und zeigt mir somit, dass man hier nicht weiter fortfahren kann/soll.
Ich muss die Hausaufgabe in einer Woche abgeben und blicke das leider nicht.
Kann mir hier bitte jemand helfen und mich in die richtige Richtung schubsen? Was mache ich falsch? Ich habe mich schon im Netz auf Statistikguru ein wenig schlau gemacht und habe versucht die Aufgaben nach diesem Muster zu lösen, doch leider mit keinem Erfolg.
Ist diese Datenbank überhaupt sinnvoll für diese Aufgabe? Könnt ihr mir ggf. eine bessere empfehlen?
Vielen Dank schon im Voraus!
