Test auf Lognormal-Vert. < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Hallo,
ich würde gerne an einen relativ großen Datensatz (ca. 100.000 Einträge) eine Verteilung anpassen.
Wünschenswert wäre, wenn es sich um eine Lognormalverteilung handelt (der Grund hierfür: in Versicherungen arbeitet man oft mit einem Standardmodell, das von lognormalverteilten Schadenshöhen ausgeht).
Als erstes habe ich mir in R einen QQ-Plot angesehen - Datensatz gegen Lognormalverteilung.
Das sieht alles andere als Lognormalverteilt aus.... statistische Tests (z.B. Cramer-Mises-Test) verwerfen aber nicht die Hypothese, dass die Daten normalverteilt sind.
Was würdet ihr sagen?
LG
Thomas
PS: im Anhang der Screenshot vom QQ Plot.
QQ-Plot
Dateianhänge: Anhang Nr. 1 (Typ: PNG) [nicht öffentlich]
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 17:02 Mi 09.01.2019 | Autor: | luis52 |
Moin, ich kann nicht erkennen, wie dein Plot entstanden ist. Aber versuch es doch einmal so: Logarithmiere die Daten und verwende qqnorm() bzw. teste mit mit einem Shapiro-Wilk-Test, ?shapiro.test.
|
|
|
|
|
Hallo Luis und danke für die Antwort.
Es ist folgender Sachverhalt:
Es wäre sehr wünschenswert, wenn die Lognormalverteilung am besten passen würde (egal, ob sie nun wirklich gut passt).
Was meinst du dazu, wenn ich mir beim Verteilungsfit jeweils die LogLikelihood ausgeben lasse und jene Verteilung als am Besten ansehe, die die größe Likelihood hat?
Wenn ich einen sehr großen Datensatz habe (z.B. 100000 Daten) und davon sind einige sehr groß - sagen wir 300 Datenpunkte sind zwischen 100000 und 1000000 -- 99800 sind allerdings zwischen 0,01 und 99999 ...
meinst du es ist sinnvoll den Datensatz zu teilen? Gäbe es eine vernünftige Grenze, dass z.B. auf kleine Cluster dieses Datensatzes verschiedene Lognormalverteilungen passen?
LG und Dank
Thomas
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 23:20 Mo 14.01.2019 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|