Count unterschiedliche Ausprägungen in einer Variable

Beitrag von **Mali1313** » 10.01.2021, 20:28

Hallo,
ich habe folgendes Problem. Ich habe zwei Variablen "CustomerID" und "OrderID". Nun möchte ich eine neue Variable erstellen, welche mir die Anzahl der UNTERSCHIEDLICHEN Ausprägungen der Variable OrderID je CustomerID ausgibt.
Beispiel:
CustomerID OrderID Number of different Values (zu erstellen)
1000001 10 4

1000001 15 4

1000001 15 4

1000001 20 4

1000001 25 4

1000002 30 2

1000002 35 2

.....

Dass mir also meine neue Variable den Wert 4 für OrderID 1000001 ausgibt, da es 4 unterschiedliche Fälle (10,15,20,25) gibt und den Wert 2 für OrderID1000002 (30 und 35).

Bin am verzweifeln, da ich es lediglich schaffe, die Anzahl der Gesamtpositionen per CustomerID auszugeben, aber nicht die unterschiedlichen, wenn zum Beispiel zweimal die gleiche OrderID hintereinander kommt.

Danke im Voraus!

Beitrag von **dutchie** » 11.01.2021, 05:20

Hallo Mali1313

Ohweh, da muss man ganz schön tricksen.

..zumal die 15 ja nur einmal zählen soll!
...das Problem ist, dass die neue Variable senkrecht steht.

Wie groß ist N?

Ich würde zuerst eine Kreutabelle machen mit C ID in der Zeile
und OID in der Spalte.
dann hast du schon fast was du willst nur ist in der letzten Spalte gesamt "15"
zweimal gezählt. Das Ganze ist aber nur im output!
du könntest aus dieser Tabelle eine neue datei machen einfach reinkopieren, am besten in excel
die mehrfachen 15er umcodieren dann neu zusammenzählen
und das Ergebnis verwendeden, um in der alten datei die CID in einer neuen Variabel umcodieren.

...oder du gehst über Daten-->umstrukturieren und machst aus der Variable OID
Spalten, d.h. neue Variablen mit ja/ nein Codierung
das müsste man aber erst üben

damit das klappt
das müsste ich selber erst austüfteln

..oder du programmierst über matrixen, aber eher

..oder es steht ja nur deshalb 4 da weil 15 doppelt, ansonsten wäre "Number of.." nur die
anzahl von CID, wie kann denn eine ID doppelt vorkommen? wie oft kommt das vor?

gruß
dutchie

Beitrag von **Mali1313** » 11.01.2021, 08:33

Hallo dutchie,

erst einmal danke für deine Antwort!

N ist knapp 2,1 Mio.. Das ist ein Datensatz über historische Kauf - und Bestelldaten.
Dementsprechend oft kommt es vor, dass doppelte IDs hintereinander stehen.

Der Datensatz ist nach Artikelpositionen aufgebaut, sprich jede Zeile ist ein Fall für einen Artikel mit Preis, Farbe, Produktgruppe etc. für diesen Artikel... Und eben deshalb kommt es vor, dass gleiche OrderIDs hintereinander stehen, da mehrere Artikel mit verschiedenen Ausprägungen (Farbe, Größe...) in einer Bestellung mit der gleichen OrderID gekauft wurden.
Hoffe du verstehst was ich meine.

Ich arbeite noch nicht lange mit SPSS, aber eigentlich ist das doch keine so außergewöhnliche Sache die Anzahl unterschiedlicher Fälle zählen zu wollen

gibt es keine function count unique values in der Art? Das muss SPSS doch hinbekommen..

Lieben Gruß,
Mali1313

Beitrag von **dutchie** » 12.01.2021, 04:44

hallo Mali1313

na ja, mal da schauen:

https://www.ibm.com/support/pages/how-c ... stincts-id

das mein ich mit programmieren..
Ein Problem ist, dass du das Ergebnis wieder in die bestehende Datei schreiben willst.
und bei dem N kannst du auch nicht den SPSS output benutzen.

Und mir scheint, dass du in SPSS falsch bist, damit kann man schlecht Daten verwalten.
in Excel oder access oder sonstige Datenbanksoftware ließe sich das Problem wahrscheinlich schneller lösen,
in Excel z.B über pivot tabellen.

gruß
dutchie

Statistik-Tutorial Forum

Count unterschiedliche Ausprägungen in einer Variable

Count unterschiedliche Ausprägungen in einer Variable

Re: Count unterschiedliche Ausprägungen in einer Variable

Re: Count unterschiedliche Ausprägungen in einer Variable

Re: Count unterschiedliche Ausprägungen in einer Variable