Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Beitrag von **stickoxydul** » 13.05.2018, 00:56

Ich beschäftige mich momentan mit dem Vergleich zweier Bewertungsportale, auf denen die Zufriedenheit mit einer Dienstleistung durch Kunden bei verschiedenen Dienstleistern bewertet wird.

Eines der Portale setzt eine fünfstufige Skala für die Zufriedenheit zwischen „ausgezeichnet“ und „schlecht“ ein. Vergleichbar wäre beispielsweise das Sternesystem der Amazon-Bewertungen. Die Anzahl an Bewertungen für jeden Dienstleister liegt hier zwischen dem niedrigen zweistelligen und hohen dreistelligen Bereich, d.h. zwischen 10 und ca. 800), je nach Anzahl der Kunden.

Die Gesamtanzahl der Bewertungen ist ebenso verfügbar wie die Anzahl der Bewertungen in jeder Kategorie.

Das zweite Portal setzt eine sechsstufige Skala für die Zufriedenheit zwischen „sehr zufrieden“ und „überhaupt nicht zufrieden“ ein. Die Anzahl an Bewertungen für jeden Dienstleister liegt hier zwischen dem niedrigen dreistelligen und mittleren vierstelligen Bereich, d.h. zwischen 100 und 5000), je nach Anzahl der Kunden.

Die Gesamtanzahl der Bewertungen ist bekannt. Allerdings werden hier keine Angaben über die Häufigkeiten der einzelnen Bewertungen gemacht. Stattdessen findet eine Übersetzung in eine Prozentskala statt, veröffentlicht wird der arithmetische Mittelwert auf der Prozentskala.

Da nicht klar ist, ob beide Portale die gleichen Kunden erreichen, soll überprüft werden, ob sie trotzdem ähnliche Ergebnisse liefern.
Aktuell liegt meine ausgewählte Stichprobe bei 12 verschiedenen Dienstleistern (die auf beiden Portalen Bewertungen haben), was in der Summe etwas über 3000 (Portal 1) bzw. 30000 (Portal 2) Bewertungen insgesamt entspricht. Es wäre prinzipiell kein Problem, die Stichprobe zu vergrößern.

Ich wäre nicht hier, wenn ich nicht nach dem passenden statistischen Test suchen würde

Meine Ideen dazu:

Die Daten von Portal 1 lassen sich analog zur Umrechnung auf Portal 2 in Prozentwerte umwandeln, aus denen sich ein arithmetischer Mittelwert bilden lässt. Dass das methodisch nicht ganz sauber ist, ist mir bewusst (Skalenniveau von Ratingskalen ist nicht zwingend intervallskaliert), allerdings sind die Rohdaten von Portal 2 nicht verfügbar.

Die Prozentwerte kann ich dann mit dem Wilcoxon-Test für verbundene Stichproben testen. Habe beides versuchsweise schonmal gemacht.

Ergebnis:

Ränge
Negative Ränge: N=8, Durchschnittlicher Rang=6,19, Summe der Ränge 49,50
Positive Ränge: N=2, Durchschnittlicher Rang=2,75, Summe der Ränge 5,50
Rangbindungen: N=2
Gesamt: N=12

Teststatistiken
Z: -2,24
asymp. Sig. (2-seitig): 0,025

Klingt das sinnvoll oder mache ich da gerade Blödsinn?

Danke fürs Lesen und für Hinweise und Anregungen.

Beitrag von **dutchie** » 13.05.2018, 21:23

Hallo

Und wie lautet die interpretation des ergebnisses:
Ein und dieselben Dienstleister werden auf unterschiedlichen Portalen unterschiedlich bewertet?
Das kann auch an deiner umrechnerei liegen?

Sag mal in welchem Rahmen führst du solche Unterschungnen durch?

gruß
dutchie

Beitrag von **stickoxydul** » 14.05.2018, 22:07

Danke schonmal für die ersten Antwort

Das ist für eine Masterarbeit.

Nehmen wir das gern hergenommene Signifikanzniveau von 0,05 (also 5% Irrtumswahrscheinlichkeit), dann ist der errechnete P-Wert von 0,025 deutlich signifikant. Somit müsste man die Nullhypothese zurückweisen, es besteht also ein statistisch signifikanter Unterschied zwischen den Bewertungen auf den beiden Portalen.

Sicherlich ist es denkbar, dass meine Umrechnung dafür verantwortlich ist. Für Portal 1 habe ich mit 100/75/50/25/0% gerechnet, Portal 2 rechnet mit 100/80/60/40/20/0%. Wenn man davon ausgeht, dass beide Skalen gleich verteilt sind, dürfte das methodisch so einwandfrei sein, wie es eben aufgrund der geschilderten Einschränkungen möglich ist.

Abseits aller Statistik sind Gründe für die Unterschiede aber auch problemlos zu finden, das würde aber den Rahmen hier sprengen.

Was mich an meinem Vorgehen aktuell noch stört:

Ich hätte gern eine Aussage darüber, ob die beiden Portale tendenziell gleiche "Empfehlungen" zur Folge haben. Angenommen, die Bewertungen auf einem der Portale fallen grundsätzlich für alle Dienstleister schlechter aus, dann würde das ja an der Rangfolge letztlich nichts ändern. Da müsste ich dann nach Korrelationen suchen. Bisher teste ich ja eher auf Unterschiede.
Die Anzahl an Bewertungen für jeden Dienstleister spielt keine Rolle, wenn ich so rechne. Das ist bei einigen hundert Bewertungen sicherlich nicht relevant, wenn es aber nur 10 sind, dann wirken sich einige Ausreißer massiv aus. Ich könnte natürlich willkürlich alle Dienstleister unterhalb einer bestimmten Bewertungsanzahl ausschließen (oder einmal mit und einmal ohne testen), aber so richtig elegant ist das irgendwie nicht.

Beitrag von **dutchie** » 15.05.2018, 21:24

Hallo

stickoxydul hat geschrieben:aber so richtig elegant ist das irgendwie nicht.

Mach aber..., das läuft nicht anders, erst wenn du quasi alle Methoden durch hast, ergibt sich ein Gesamteindruck.

Ja du mußt Korrelieren (einfach mal alles mit allen). Auch mal mit Spearman (ordinalniveau)
Empfohlen wird der beste egal wie hoch das rating, oder?
Das muss aber nicht so sein. Sind die Empfehlungen benutzerunabhängig?
Oder werden die Empfehungen einzig aufgrund des ratings ausgesprochen?

gruß
Dutchie

Beitrag von **stickoxydul** » 15.05.2018, 21:43

Ich habe zwischenzeitlich die Stichprobe etwas erweitert, n liegt jetzt bei 19.

Die Korrelation habe ich mit Pearson gerechnet. Es gibt zwei Ausreißer mit sehr wenigen Bewertungen. Wenn ich die streiche, komme ich auf 0,82, was ja schon irgendwie zeigt, dass beide Portale in die gleiche Richtung gehen. Spearman klingt aber sehr sinnvoll, da die Rangfolge evtl. fast wichtiger ist, als die absolute Bewertung. Probiere ich mal aus. Vielen Dank für diese Idee!

Bezüglich der anderen Fragen:
Die Thematik ist (wie immer im Leben) etwas komplexer, als in meinem ursprünglichen Post geschildert. Ich habe versucht, mich auf die statistisch relevanten Dinge zu beschränken.

Letztlich geht es nicht darum, Empfehlungen auszusprechen. Portal 2 hat eine sehr durchdachte Methodik, die auch wissenschaftlich überprüft wurde. Die Frage ist, ob Portal 1 mit unwissenschaftlichen Methoden zu ähnlichen Ergebnissen kommt und somit für den Kunden prinzipiell einen Besuch wert ist.

Beitrag von **dutchie** » 15.05.2018, 22:15

hallo

du kannst auch für jede der 19 Dingsbums den ranking unterschied feststellen
rang1 bei Po1 und rang5 bei Po2 = diff 4, also die diskrepanz quasi, und damit weiter
rechnen...

gruß
dutchie

Statistik-Tutorial Forum

Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Re: Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Re: Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Re: Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Re: Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test

Re: Vergleich von Ratingskalen, Umwandlung, Wilcoxon-Test