Interrater-Reliabilität

Beitrag von **Grauli** » 29.04.2011, 09:22

Liebe Alle

Ich möchte die Interrater-Übereinstimmung bei Daten, die in eine Rangreihe gebracht werden können, berechnen. Da es sich teilweise um drei Rater (sonst um zwei) handelt, bin auch auf Kendalls Konkordanzkoeffizienten gekommen. Nun hätte ich dazu folgendei Fragen:

1) Kann ich (der Einheitlichkeit und Übersichtlichkeit halber) auch bei zwei Ratern mit Kendalls Konkordanzkoeffizienten arbeiten oder gibt es etwas, das dagegen spricht?

2) Wie wird W interpretiert? Habe lange gesucht und nichts gefunden, bei welchen Werten ungefähr die Reliabilität zufriedenstellend, gut und sehr gut ist...

3) Es wurden Merkmale in einem Text kodiert. Die Merkmale bilden Subskalen. Darf ich nun über die verschiedenen Merkmale hinweg auch Kendall's Konkordanzkoeffizienten berechnen (also nicht irgendwie das Verrechnen der einzelnen W der Merkmale, sondern in SPSS alle entsprechenden Merkmale in die Berechnung mit rein)? Ich habe mich nämlich gefragt, ob es nicht einfacher wäre, nur die Reliabilität der Subskalen zu berichten und nicht der einzelnen Merkmale. Mir scheint Letzeres auch nicht besonders aussagekräftig, da es nur 16 Texte sind, die kodiert wurden und einige Merkmale sehr selten vorgekommen sind.

Ich freue mich auf eure Antworten!

Merci und Gruss
Grauli

Beitrag von **drfg2008** » 29.04.2011, 18:01

1) Kann ich (der Einheitlichkeit und Übersichtlichkeit halber) auch bei zwei Ratern mit Kendalls Konkordanzkoeffizienten arbeiten oder gibt es etwas, das dagegen spricht?

Bortz (1998 S.279 ff sowie 1990 S.465 ff) beschreibt den Konkordanz-Koeffizeinten von Kendall bei Ordinaldaten (Kendall & Babington-Smith 1939), wobei er bei 2 Ratern auf den Spearman rho und Kendalls tau verweist). In Tafel R (Bortz 1998, S.379) wird nur ab N = 3 vertafelt und auch nur ab m = 8 bei N=3.

Von daher gehe ich davon aus, dass bei N < 3 wohl auf die oben genannten rho und tau zugegriffen wird, obgleich sich die Quadratsumme der Rangsumme (QSR) berechnen ließe und SPSS das auch berechnet:

Code: Alles auswählen

NPAR TESTS
  /KENDALL=v1 v2
  /MISSING LISTWISE.

Reliabilität von Skalen wird mit Cronbach gemessen.

Gruß

Beitrag von **Grauli** » 01.05.2011, 13:09

Erst einmal vielen Dank für deine rasche Antwort!

Bortz, Lienert & Boehnke (2000) schreiben auf S. 465f: "Aus diesen Überlegungen folgt, dass der durchschnittliche Rangkorrelationskoeffizient zwischen Paaren von Rangreihen kein optimales Übereinstimmungsmass ist, und es bedarf einer anderen Definition der Konkordanz".

Die Autoren verweisen dann auf Kendalls Konkordanzkoeffizienten. Deshalb bin ich eben auf den Konkordanzkoeffizienten gekommen und frage mich nun, ob der auch für n = 2 Beurteiler einsetzbar ist. Weiss(t) du/jemand dazu etwas?

Wegen der Reliabilität der Skala: Was ich dort meine ist, wie gut die Rater im Hinblick auf die Subskala (also z.b. Merkmale 1 bis 10) übereinstimmen, so quasi im Schnitt oder so... Vielleicht verstehe ich dich falsch, aber ich habe das Gefühl, dass Cronbach's alpha dazu nicht geeinget ist..? Meine Frage ist, ob ich die Werte aller Merkmale gemeinsam auswerten darf, so dass nachher ein Konkordanzkoeffizient rauskommt oder ob das anders verrechnet werden muss. Ich würde eben gerne eine Aussage dazu machen, inwieweit die Rater über die Merkmale hinweg übereinstimmen... Oder geht das gar nicht?

Beitrag von **drfg2008** » 01.05.2011, 13:53

Wegen der Reliabilität der Skala: Was ich dort meine ist, wie gut die Rater im Hinblick auf die Subskala (also z.b. Merkmale 1 bis 10) übereinstimmen, so quasi im Schnitt oder so...

Das war auch nicht mit Cronbach gemeint, sondern nur nach klassischer Testtheorie die Reliabilität von Skalen. Nicht die "Interrater Reliabilität", also die Übereinstimmung von Wertenden (Ratern).

Bortz, Lienert & Boehnke (2000) schreiben auf S. 465f: "Aus diesen Überlegungen folgt, dass der durchschnittliche Rangkorrelationskoeffizient zwischen Paaren von Rangreihen kein optimales Übereinstimmungsmass ist, und es bedarf einer anderen Definition der Konkordanz".

Moment. Tatsächlich weicht der Text von Bortz/Lienert/Boehnke (1990 S.465 ff) zwar geringfügig von Bortz (1998 S.279) ab, gemeint ist allerdings der "durchschnittliche Rangkorrelationskoeffizient zwischen Paaren von Rangreihen". Nämlich bei mehr als 2 Ratern. Ich fasse mal hier den Text aus Bortz (1998 S.279) zusammen:

Wenn 2 Urteiler N Objekte oder Individuen in eine Rangreihe bringen, können wir die Übereinstimmung der beiden Rangreihen über eine Rangkorrelation (Spearmans rho oder Kendalls tau) beschreiben und überprüfen. Hat man nun Rangreihen von mehr als 2 Urteilern erhoben (m>2), wäre es eigentlich naheliegend, für die Übereinstimmung der m Rangreihen die durchschnittliche Rangkorrelation aller (m über 2) Rangkorrelationen zwischen je 2 Urteilern zu berechnen. Daß diese Vorgehensweise jedoch zu wenig plausiblen Resultaten führt, zeigen die folgenden Überlegungen (...). Aus diesen Überlegungen folgt, daß der durchschnittliche Rangkorrelationskoeffizient zwischen Paaren von Rangreihen kein optimales Übereinstimmungsmaß ist.

Daraus - und aus der Tatsache, dass Bortz den Kendall's W nicht bei m=2 in Tabelle R vertafelt hat - schließe ich, dass Bortz bei m = 2 auf Spearman oder Kendall's tau verweist.

Ob allerdings Bortz' Empfehlung unbedingt bindend ist, wäre natürlich zu fragen. Im Prinzip wäre es auch eine Frage der Effizienz eines Verfahrens. Dazu ist mir in diesem Zusammenhang allerdings nichts bekannt.

Da allerdings Spearman auch negativ werden kann, Kendall's W hingegen nicht (wegen der QSR, die immer positiv ist), wäre der Einheitlichkeit wegen wahrscheinlich die Verwendung des W in allen Fällen, also auch bei m =2, sinnvoll. Und das würde auch für Teile einzelner Bewertungen gelten.

Gruß

Beitrag von **Grauli** » 02.05.2011, 07:54

Vielen Dank für deine Ausführungen!

Ich sehe nun zwei Möglichkeiten. Entweder werde ich für alles W berechnen oder alternativ bei m = 3 W in Spearmans Rho umrechnen (dazu hat es in Bortz, Lienert und Boehnke (2000) auf S. 470 eine Formel) und dann überall Spearmans Rho berichten (mit Hinweis auf Umrechnung). Siehst du heir eine Präferenz?

Wenn ich nochmals nachhaken darf wegen der Interrater Reliabilität (nicht der nach KTT) bei Skalen: Darf ich denn nun einfach alle Merkmale, die ich zusammen haben will in eine Berechnung reinnehmen oder muss ich die einzelnen Reliabilitäten der Merkmale verrechnen?

Nochmals Danke für deine Beiträge, ich bin sehr froh drum!

Beitrag von **drfg2008** » 02.05.2011, 08:21

ich bin leider kein Experte in diesem Fall und habe selbst erst einmal ein wenig Literatur recherchiert.

Ich würde tatsächlich so vorgehen, wie du das ursprünglich geplant hattest, nämlich den W für alle Beispiele berechnen. Ob das extra begründet werden muss? Denn sonst erhält man einmal eventuell negative Werte (bei m=2 möglich) und ab m > 2 nur noch positive. Und das verwirrt mehr als es erklärt.

Von der Formel her gesehen dürfte das auch kein methodisches Problem geben.

Ja, und den Bortz kann man ja leider auch nicht mehr fragen

Gruß

Statistik-Tutorial Forum

Interrater-Reliabilität

Interrater-Reliabilität

re

re2

re3