Erste Aufbereitung von Echt-Daten

Beitrag von **Greenpirate** » 06.04.2018, 11:14

Liebe Brains,

ich habe die Blogbeiträge von ca. 6.000 Usern über die letzten 10 Jahre erhoben
(bitte kein Datenschutz-Herzinfarkt: das ist nur ein Beispiel eines ähnlich gelagerten Datensets...

).

Nun sind es halt Echtdaten... Das heißt, einige der User haben nur einen Beitrag geschrieben und danach nie wieder etwas. Andere Wenige hingegen haben extrem viele Beträge geschrieben. Beide Extreme möchte ich in meinem Datenset nicht einfach so übernehmen, am liebsten sogar gar nicht berücksichtigen.
Ich frage mich nur, wo ich nach oben und unten jeweils die Grenze ziehe und wie ich einen ersten Griff an die Daten bekommen kann? Zu Klassieren, um z.B. relative Häufigkeiten auszurechnen, erscheint mir recht willkürlich, ebenso wie einfach das obere und untere Quantil rauszunehmen.

Habt ihr eine Idee, Website, einen Tipp für mich, wie ich mich den Daten am besten nähern kann?

1.000 Dank!

Beitrag von **dutchie** » 06.04.2018, 13:28

Hallo

Wenn du 6000 datensätze hast von 6000 Personen, müssen auch 6000
in die datendatei, da muss jeder rein der teilgenommen hat, sonst stimmt doch nichts mehr.
Die grundlegende Zahl ist ja die Stichprobengröße.

gruß
dutchie

Beitrag von **Greenpirate** » 30.04.2018, 07:25

Hi dutchie,

danke für deine Rückmeldung. Alle Blogbeiträge je User sind in einem Dokument. Über diese Dokumente soll später eine Sprachanalyse laufen. Diese ist bei kurzen Texten natürlich anders als bei langen, deshalb möchte ich die Ausreißer nach unten und nach oben rausnehmen - über 5 Wörter kann ich keine Sprachanalyse laufen lassen. Ich habe mal gelernt, dass man Ausreißer normieren muss, aber das ist bei dem nachgelagerten Schritt der Textanalyse natürlich schwierig.

Hast du eventuell eine Idee? (sorry für die späte Antwort, mein Rechner ist abgeschmiert

)

Danke!

Beitrag von **dutchie** » 30.04.2018, 11:54

Hallo

Ich verstehe nicht was du mit Ausreißer normieren meinst.
Die Sprachanalyse (Textanalyse) ? Ist das eine KI?
So einigermaßen ist mir klar, dass bei zuwenig text und zuviel text, eine Spachanalyse, entweder keine
Info liefert oder nur Redundanz produziert. Aber du kennst doch die Läge der Texte, warum fängst du nicht in der Mitte an
zu analysieren (Text mittlerer Länge) und gehst dann in die Extreme, und beobachtest die Ergebnisse.

gruß
dutchie

Beitrag von **Greenpirate** » 30.04.2018, 16:27

Hi dutchie,

danke für deine Antwort.

ganz genau: zu wenig und zu viel Text sind nicht gut.
Ich möchte mittels topic modeling herausfinden, über welche Themen die Blogs gehen. Natürlich kann ich erst die Texte um den Median nehmen und dann schauen, inwieweit sich die Ergebnisse verbessern oder verschlechtern, wenn ich kleinere oder größere Texte hinzunehme. Zum einen dauert ein Analysedurchlauf aber relativ lange, deshalb kann ich das nicht beliebig oft machen, zum anderen würde ich gern den wissenschaftlichen Grundsätzen nicht direkt widersprechen - sofern welche da

Liebe Grüße.

Statistik-Tutorial Forum

Erste Aufbereitung von Echt-Daten

Erste Aufbereitung von Echt-Daten

Re: Erste Aufbereitung von Echt-Daten

Re: Erste Aufbereitung von Echt-Daten

Re: Erste Aufbereitung von Echt-Daten

Re: Erste Aufbereitung von Echt-Daten