ich habe die Blogbeiträge von ca. 6.000 Usern über die letzten 10 Jahre erhoben
(bitte kein Datenschutz-Herzinfarkt: das ist nur ein Beispiel eines ähnlich gelagerten Datensets...

Nun sind es halt Echtdaten... Das heißt, einige der User haben nur einen Beitrag geschrieben und danach nie wieder etwas. Andere Wenige hingegen haben extrem viele Beträge geschrieben. Beide Extreme möchte ich in meinem Datenset nicht einfach so übernehmen, am liebsten sogar gar nicht berücksichtigen.
Ich frage mich nur, wo ich nach oben und unten jeweils die Grenze ziehe und wie ich einen ersten Griff an die Daten bekommen kann? Zu Klassieren, um z.B. relative Häufigkeiten auszurechnen, erscheint mir recht willkürlich, ebenso wie einfach das obere und untere Quantil rauszunehmen.
Habt ihr eine Idee, Website, einen Tipp für mich, wie ich mich den Daten am besten nähern kann?
1.000 Dank!