www.vorhilfe.de
- Förderverein -
Der Förderverein.

Gemeinnütziger Verein zur Finanzierung des Projekts Vorhilfe.de.
Hallo Gast!einloggen | registrieren ]
Startseite · Mitglieder · Impressum
Forenbaum
^ Forenbaum
Status VH e.V.
  Status Vereinsforum

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Suchen
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Forum "Uni-Stochastik" - statistisches Problem
statistisches Problem < Stochastik < Hochschule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:21 Fr 16.07.2004
Autor: jopeku

Hallo,

ich wage mich in dieses Forum, da man mir es im Forum 9-10 Klasse
so geraten hat.

Da ich mir hier etwas Hilfe und Unterstützung erhoffe, versuche ich mein Problem
möglichst konkret zu beschreiben.

Ich beschäftige mich als Autodidakt seit einigen Jahren mit der quantitativen Computerlinguistik. Die dazu erforderlichen Programme schreibe ich erfolgreich
selbst. Die Programme ermitteln aus einer sehr großen Zahl von Texten, spezielle
Kennzahlen wie sie in der entsprechenden Literatur beschrieben werden sowie einige
zusätzliche Kennzahlen, die ich selbst entwickelt habe.

Meine Interesse richtet sich darauf, ob man an Hand des Genres – Märchen, Novelle, Erzählung – usw. signifikante Unterschiede feststellen kann oder nicht. Als Ausgangsmaterial
verwende ich nur Texte zwischen 1800 und 1900.

So weit, so gut.

Nun mein Problem in der Hoffnung auf Hilfe:

Wenn ich die Entropie der Wörter in einem Text beispielsweise ermittle und die Werte
addiere um sie am Ende durch die Anzahl der im Text vorkommenden Worte dividiere,
dann erhalte ich je Text einen bestimmten Wert.

An Hand dieser ermittelten Kennzahl möchte ich nun die Texte miteinander programmtechnisch vergleichen. Nach meiner Auffassung jedoch übt die Wortanzahl
einen Einfluss aus diesen Wert aus. Nun habe ich mich versucht in der Literatur
schlau zu machen und da wird darauf verwiesen, dass man durch Transformation der
Werte unterschiedliche Stichproben „normalisieren“ kann.

Ich gehe davon aus, das die Stichproben – also Texte – in Normalverteilter Form vorliegen.
Welches Verfahren kann ich anwenden, um den Einfluss der Wortanzahl zu eliminieren??

Oder sind meine Überlegungen völlig falsch?

Ich würde mich sehr darüber freuen, wenn mir jemand helfen könnte.
Ich bitte aber zu bedenken, dass ich weder jemals studiert habe und mich eher als mathematischer Laie betrachte. Es wäre also sehr nett, wenn man mir eine Lösung so
erklären könnte, das ich sie programmtechnisch einfach umsetzen kann.

Ein kurzes Beispiel:

Text 1     768  Worte Kennzahl  0,346
Text 2  11723  Worte Kennzahl  0,421
Text 3    2812  Worte Kennzahl  0,361

Ich habe diese Frage auch in folgendem Foreum gestellt:
https://matheraum.de/read?f=10&t=650&i=650

        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:02 Fr 16.07.2004
Autor: Stefan

Hallo!

Ich bin mir zwar nicht ganz sicher, ob ich dein Problem richtig verstanden habe, aber ich versuche es mal.

Bleiben wir mal bei deinem Beispiel:

> Ein kurzes Beispiel:
>  
> Text 1     768  Worte Kennzahl  0,346
>  Text 2  11723  Worte Kennzahl  0,421
>  Text 3    2812  Worte Kennzahl  0,361

Hier würde ich wie folgt vorgehen:

Du gehst ja davon aus, dass die Entropie normalverteilt ist. Den Erwartungswert bezeichne ich mit [mm] $\mu$ [/mm] und die Streuung mit [mm] $\sigma$. [/mm]

Jetzt könntest du [mm] $\mu$ [/mm] durch das arithmetische Mittel [mm] $\hat{\mu}$ [/mm]  der drei Werte $0,346$, $0,421$ und $0,361$ schätzen und [mm] $\sigma$ [/mm] durch die empirische Streuung:

[mm] $\hat{\sigma}= \sqrt{\frac{1}{2} ( (0,346 - \hat{\mu})^2 + (0,421 - \bar{x})^2 + (0,361 - \bar{x})^2 )}$. [/mm]

So, und jetzt standardisierst du deine Größen mittels:

[mm] $\bar{x_i} [/mm] = [mm] \frac{x_i - \hat{\mu}}{\hat{\sigma^2}} \sqrt{n}$, [/mm]

also:

[mm] $\bar{x_1} [/mm] = [mm] \frac{0,346 - \hat{\mu}}{\hat{\sigma}} \sqrt{768}$, [/mm]

[mm] $\bar{x_2} [/mm] = [mm] \frac{0,421 - \hat{\mu}}{\hat{\sigma}} \sqrt{11723}$, [/mm]

[mm] $\bar{x_3} [/mm] = [mm] \frac{0,361 - \hat{\mu}}{\hat{\sigma}} \sqrt{2812}$. [/mm]

Liebe Grüße
Stefan



Bezug
                
Bezug
statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 23:18 Fr 16.07.2004
Autor: jopeku

Hallo Stefan,

danke für die Antwort, hatte schon befürchtet,
das ich alleine mit meinem Problem bleibe.

Ich denke mal, ich habe es halbwegs verstanden
und versuche es mal
a) programmtechnisch umzusetzen
b) die Ergebnisse an Hand der Augabenstellung zu bewerten

eine abschließende Frage habe ich noch dazu:

Hat dieses Verfahren einen bestimmten Namen, unter dem ich
in einem guten Statistikbuch nachschlagen kann.
Um mich herrum wimmelt es von Stistikbücher z.B. Sachs, aber
je mehr man darin stöbert um so mehr wird man irretiert :-)

danke für deine Hilfe


Bezug
                        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:44 Fr 16.07.2004
Autor: Stefan

Hallo!

Das ist die ganz gewöhnliche Standardisierung:

Ist $X$ [mm] ${\cal N}(\mu,\sigma^2)$-verteilt, [/mm] so ist [mm] $\frac{X-\mu}{\sigma}$ ${\cal N}(0,1)$-verteilt. [/mm]

Das einzige, was du hier beachten musst, ist folgendes:

Ist eine Folge [mm] $(X_i)_{i=1,2,\ldots,n}$ [/mm] unabhängig identisch [mm] ${\cal N}(\mu,\sigma^2)$ [/mm] verteilt, so ist das arithmetische Mittel

[mm] $\bar{X} [/mm] = [mm] \frac{1}{n} \sum\limits_{i=1}^n X_i$ [/mm]

gerade [mm] ${\cal N}(\mu, \frac{\sigma^2}{n})$-verteilt. [/mm]

Jetzt wendest du die obige Standardisierung einfach auf [mm] $\bar{X}$ [/mm] (anstatt auf $X$) an. (Denn: Bei dir sind die Kenngrößen ja bereits arithmetische Mittel der Entropien von Stichproben verschiedener Größen.)

Da [mm] $\mu$ [/mm] und [mm] $\sigma$ [/mm] nicht bekannt sind, musst du diese erst aus dem arithmetischen Mittel der drei Werte und der Stichprobenvarianz der drei Werte schätzen.

Liebe Grüße
Stefan

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
ev.vorhilfe.de
[ Startseite | Mitglieder | Impressum ]