www.vorhilfe.de
- Förderverein -
Der Förderverein.

Gemeinnütziger Verein zur Finanzierung des Projekts Vorhilfe.de.
Hallo Gast!einloggen | registrieren ]
Startseite · Mitglieder · Impressum
Forenbaum
^ Forenbaum
Status VH e.V.
  Status Vereinsforum

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Suchen
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Forum "Statistik/Hypothesentests" - Sörensen Index
Sörensen Index < Statistik/Hypothesen < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Sörensen Index: Verwirrung
Status: (Frage) beantwortet Status 
Datum: 14:37 Sa 23.04.2016
Autor: magics

Aufgabe
Der Sörensen Index oder Sörensen-Dice-Koeffizient dient zur Ähnlichkeitsanalyse von Zeichenketten.

Dabei werden die Zeichenketten in Bigramme nebeneinanderliegender Buchstaben zerlegt. Aus "katze" erhält man also beispielsweise vier Bigramme: {ka, at, tz, ze}.

Die Formel ist definiert als:
s = [mm] \bruch{2*|A \cap B|}{|A| + |B|}, [/mm]

mit
|A [mm] \cap [/mm] B| Anzahl übereinstimmender Bigramme beider Worte
|A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.

Ein Beispiel:
Verglichen werden soll "katze" und "tatze".
Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.

Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm] \cap [/mm] B| = 3 wäre.
|A| und |B| sind jeweils 4.

Damit ergibt sich:

s = [mm] \bruch{2 * 3}{4 + 4} [/mm] = [mm] \bruch{3}{4} [/mm]



Was passiert, wenn sich Bigramme wiederholen?

Wenn ich also z.B. die Wörter "katztze" und "tatze" vergleichen wollte, ergäben sich die Bigrammgruppen:
{ka, at, tz, zt, tz, ze} und
{ta, at, tz, ze}

Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich es dann auch zwei Mal in der Schnittmenge |A [mm] \cap [/mm] B|? Oder dürfen doppelte Bigramme nicht doppelt in die Liste aufgenommen werden?

lg
Magics

        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 16:03 Sa 23.04.2016
Autor: DieAcht

Hallo magics!


> Der Sörensen Index oder Sörensen-Dice-Koeffizient dient
> zur Ähnlichkeitsanalyse von Zeichenketten.
>  
> Dabei werden die Zeichenketten in Bigramme
> nebeneinanderliegender Buchstaben zerlegt. Aus "katze"
> erhält man also beispielsweise vier Bigramme: {ka, at, tz,
> ze}.
>  
> Die Formel ist definiert als:
>  s = [mm]\bruch{2*|A \cap B|}{|A| + |B|},[/mm]
>  
> mit
>  |A [mm]\cap[/mm] B| Anzahl übereinstimmender Bigramme beider
> Worte
>  |A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
>  
> Ein Beispiel:
>  Verglichen werden soll "katze" und "tatze".
>  Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
>  Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
>  
> Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm]\cap[/mm]
> B| = 3 wäre.
>  |A| und |B| sind jeweils 4.
>  
> Damit ergibt sich:
>  
> s = [mm]\bruch{2 * 3}{4 + 4}[/mm] = [mm]\bruch{3}{4}[/mm]

[ok]

> Was passiert, wenn sich Bigramme wiederholen?

Seien [mm] $A\$ [/mm] und [mm] $B\$ [/mm] endliche nicht leere Mengen mit [mm] $A=B\$. [/mm] Dann gilt [mm] $s=1\$. [/mm]
  

> Wenn ich also z.B. die Wörter "katztze" und "tatze"
> vergleichen wollte, ergäben sich die Bigrammgruppen:
>  {ka, at, tz, zt, tz, ze} und
>  {ta, at, tz, ze}

Es geht dir aber hier nicht um die Wiederholung von Bigrammen, sondern um die Wiederholung von Elementen in Bigrammen.
Also geht es dir um die Wiederholung von Elementen in Mengen. Beispielsweise gilt [mm] $\{a,b,a\}=\{a,b\}$. [/mm]

> Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich
> es dann auch zwei Mal in der Schnittmenge |A [mm]\cap[/mm] B|? Oder
> dürfen doppelte Bigramme nicht doppelt in die Liste
> aufgenommen werden?

Es gilt

      [mm] $\{ka, at, tz, zt, tz, ze\}=\{ka, at, tz, zt, ze\}$. [/mm]


Gruß
DieAcht

Bezug
                
Bezug
Sörensen Index: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:51 Sa 23.04.2016
Autor: magics

Hallo DieAcht,

erstmal vielen Dank für die Antwort.
Leider wirft sie eine weitere Frage auf:

Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b' bestehen.

1. Beispiel:
A = "ab" => {ab}
B = "ba" => {ba}
s = [mm] \bruch{2*0}{2} [/mm] = 0

2. Beispiel:
A = "aba" => {ab, ba}
B = "bab" => {ba, ab}
s = [mm] \bruch{2*2}{4} [/mm] = 1,
da ich in deiner Antwort interpretiere, dass die Reihenfolge der Bigramme keine Rolle spielen, was bei Mengen ja auch Sinn macht.

"aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles andere als gleich... dass hier 1 rauskommt, kann doch nicht richtig sein.

3. Beispiel
A = "aba" => {ab, ba}
B = "aba" => {ab, ba}
s = [mm] \bruch{2*2}{4} [/mm] = 1
Auch hier kommt 1 raus...?

Ich hätte vom Gefühl her die Bigramme der Zeichenketten nacheinander miteinander verglichen. Dann hat man aber Probleme, wenn eins der Wörter länger ist, als das andere...
Also so, dass beim 2. Beispiel gar keine Übereinstimmung zu finden ist, weil die Bigramme vertikal gelesen keine Übereinstimmung haben.

lg
Magics



Bezug
                        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 18:09 Sa 23.04.2016
Autor: DieAcht


> Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b'
> bestehen.
>  
> 1. Beispiel:
>  A = "ab" => {ab}

>  B = "ba" => {ba}

>  s = [mm]\bruch{2*0}{2}[/mm] = 0

[ok]

> 2. Beispiel:
>  A = "aba" => {ab, ba}

>  B = "bab" => {ba, ab}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1,

[ok]

> da ich in deiner Antwort interpretiere, dass die
> Reihenfolge der Bigramme keine Rolle spielen, was bei
> Mengen ja auch Sinn macht.
> "aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles
> andere als gleich... dass hier 1 rauskommt, kann doch nicht
> richtig sein.

Nur die Reihenfolge der Elemente spielt keine Rolle.

Im Allgemeinen gilt [mm] $\{a,b\}=\{b,a\}$, [/mm] aber [mm] $\{ab\}\not=\{ba\}$. [/mm]

> 3. Beispiel
>  A = "aba" => {ab, ba}

>  B = "aba" => {ab, ba}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1

[ok]

>  Auch hier kommt 1 raus...?

Es gilt immer [mm] $s\in[0,1]$. [/mm]

> Ich hätte vom Gefühl her die Bigramme der Zeichenketten
> nacheinander miteinander verglichen. Dann hat man aber
> Probleme, wenn eins der Wörter länger ist, als das
> andere...
> Also so, dass beim 2. Beispiel gar keine Übereinstimmung
> zu finden ist, weil die Bigramme vertikal gelesen keine
> Übereinstimmung haben.

Der Sörensen Index liefert eine Aussage über die Ähnlichkeit!

Bezug
                                
Bezug
Sörensen Index: Danke
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 13:53 So 24.04.2016
Autor: magics

Ok, besten Dank, DieAcht

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
ev.vorhilfe.de
[ Startseite | Mitglieder | Impressum ]