Hallo Jack,
zum Teil kann ich dir Zustimmen, zum Teil nicht. Ein Interpretationsproblem hat man nicht sowieso. Ein Interpretationsproblem hat man nur dann, wenn man die Berechnung eines Index auf der Grundlage unterschiedlich vieler Variablen zulässt. Müssen alle Variablen gültige Werte aufweisen, lässt man also keine Missings zu, ist die Interpretation klar. Vorausgesetzt, der Index wird sinnvoll gebildet, aber dass sei hier einfach mal gesetzt.
Das Problem kann mehr oder weniger groß sein, je nachdem, wie viele Variablen mit ungültigen Werten man für die Indexbildung akzeptiert. Da kann ich dir zustimmen. In folgender Syntax wird z.B. zugelassen, dass nur bei drei von vier Variablen ein gültiger Wert vorliegen muss, zudem wird das arithmetische Mittel über die gültigen Werte berechnet:
Compute Index1 = Mean.3(v1, v2, v3, v4).
exe.
Bei folgender Syntax muss sogar nur ein gültiger Wert in vier Variablen vorliegen:
Compute Index2 = Mean(v1, v2, v3, v4).
exe.
Haben die Indices zudem alle dieselbe Skalenbreite, was ja so sein sollte, gibt es auch kein Problem mit unterschiedlichen Ober- und Untergrenzen. Die Grenzen sind in so einem Fall exakt definiert, zumindest bei ungewichteten Indices. Oder meintest du etwas anderes?
Deinen Hinweis darauf, dass der Index theoretisch sinnvoll gebildet werden muss, finde ich auch hilfreich. Bevor es an die Indexbildung geht, sollte man sorgsam modellieren. Das wird oft vergessen. Ist es z.B. wirklich nötig, den Index auf der Grundlage von vier Variablen zu bilden, oder reichen nicht drei dafür aus? Vor allem wenn sich herausstellen sollte, dass sich die Missings besonders in einer Variable befinden, kann man diese eventuell weglassen.
Auch bei der Datencodierung sollte man sorgsam vorgehen. Dein Beispiel beim Index „Gesamtausgaben“ ist hier wieder hilfreich. Wenn man keine Ausgaben hat, kann auch kein positiver Wert angegeben werden, man kann dies aber mit einer 0 codieren, die dann inhaltlich sinnvoll und gültig ist. Wenn man aber mit 999 codiert und dies dann als Missing setzt, würde ich das für einen Codierfehler halten. Den Codeplan zu überprüfen, ist auch hier sinnvoll.
Ich denke, bei einer guten Modellierung und einem guten Codeplan kann man viele Probleme im Vorfeld der Analyse bereits vermeiden. Gerade deswegen bleibe ich dabei, Indices die auf der Grundlage unterschiedlich vieler Variablen und eventuell sogar unterschiedlicher Skalenbreite gebildet werden, sind prinzipiell nicht interpretierbar. Besser ordentlich modellieren und Codieren.
Gruß, Volker