Eines der Portale setzt eine fünfstufige Skala für die Zufriedenheit zwischen „ausgezeichnet“ und „schlecht“ ein. Vergleichbar wäre beispielsweise das Sternesystem der Amazon-Bewertungen. Die Anzahl an Bewertungen für jeden Dienstleister liegt hier zwischen dem niedrigen zweistelligen und hohen dreistelligen Bereich, d.h. zwischen 10 und ca. 800), je nach Anzahl der Kunden.
Die Gesamtanzahl der Bewertungen ist ebenso verfügbar wie die Anzahl der Bewertungen in jeder Kategorie.
Das zweite Portal setzt eine sechsstufige Skala für die Zufriedenheit zwischen „sehr zufrieden“ und „überhaupt nicht zufrieden“ ein. Die Anzahl an Bewertungen für jeden Dienstleister liegt hier zwischen dem niedrigen dreistelligen und mittleren vierstelligen Bereich, d.h. zwischen 100 und 5000), je nach Anzahl der Kunden.
Die Gesamtanzahl der Bewertungen ist bekannt. Allerdings werden hier keine Angaben über die Häufigkeiten der einzelnen Bewertungen gemacht. Stattdessen findet eine Übersetzung in eine Prozentskala statt, veröffentlicht wird der arithmetische Mittelwert auf der Prozentskala.
Da nicht klar ist, ob beide Portale die gleichen Kunden erreichen, soll überprüft werden, ob sie trotzdem ähnliche Ergebnisse liefern.
Aktuell liegt meine ausgewählte Stichprobe bei 12 verschiedenen Dienstleistern (die auf beiden Portalen Bewertungen haben), was in der Summe etwas über 3000 (Portal 1) bzw. 30000 (Portal 2) Bewertungen insgesamt entspricht. Es wäre prinzipiell kein Problem, die Stichprobe zu vergrößern.
Ich wäre nicht hier, wenn ich nicht nach dem passenden statistischen Test suchen würde

Meine Ideen dazu:
Die Daten von Portal 1 lassen sich analog zur Umrechnung auf Portal 2 in Prozentwerte umwandeln, aus denen sich ein arithmetischer Mittelwert bilden lässt. Dass das methodisch nicht ganz sauber ist, ist mir bewusst (Skalenniveau von Ratingskalen ist nicht zwingend intervallskaliert), allerdings sind die Rohdaten von Portal 2 nicht verfügbar.
Die Prozentwerte kann ich dann mit dem Wilcoxon-Test für verbundene Stichproben testen. Habe beides versuchsweise schonmal gemacht.
Ergebnis:
Klingt das sinnvoll oder mache ich da gerade Blödsinn?Ränge
Negative Ränge: N=8, Durchschnittlicher Rang=6,19, Summe der Ränge 49,50
Positive Ränge: N=2, Durchschnittlicher Rang=2,75, Summe der Ränge 5,50
Rangbindungen: N=2
Gesamt: N=12
Teststatistiken
Z: -2,24
asymp. Sig. (2-seitig): 0,025
Danke fürs Lesen und für Hinweise und Anregungen.