Forum "Algorithmen und Datenstrukturen" - Hash für Bloom-Filter - ev.vorhilfe.de

- Förderverein -

Der Förderverein. Gemeinnütziger Verein zur Finanzierung des Projekts Vorhilfe.de.
	Hallo Gast! [ einloggen \| registrieren ]
	Startseite · Mitglieder · Impressum

Forenbaum

VH e.V.

Vereinsforum

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation

Startseite...
Suchen
Impressum

Das Projekt

Server und Internetanbindung werden durch Spenden finanziert.

Organisiert wird das Projekt von unserem Koordinatorenteam.

Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.

Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".

Partnerseiten

Weitere Fächer:

Vorhilfe.de

FunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme

Forum "Algorithmen und Datenstrukturen" - Hash für Bloom-Filter

Hash für Bloom-Filter < Algor.+Datenstr. < Theoretische Inform. < Hochschule < Informatik < Vorhilfe

Ansicht:

[ geschachtelt ]

Forum "Algorithmen und Datenstrukturen" |

Alle Foren |

Forenbaum | Materialien

Hash für Bloom-Filter: Unabhängigkeit von Hashes

Status:	(Frage) beantwortet
Datum:	11:12 Fr 20.04.2018
Autor:	tc_engineer

Ich möchte einen Bloom-Filter implementieren. Dazu benötigt man k unabhängige und gleichverteilte Hashfunktionen, welche jeweils ein Eingangselement auf einen Bereich 0...m-1 gleichverteilt abbilden.

Angenommen m ist 2048 und mein erster Hash produziert 256-Bit Werte (also Werte von 0 bis 2^256-1).

Frage 1:
Da das Resultat des Hashs gleichverteilt ist, kann ich für eine Abbildung des Hashergebnisses auf 0...2047 einfach das Resultat des Hashs mod 2048 nehmen (also aus Implementierungssicht die unteren 11 Bit des 256-Bit Hashs), da diese auch gleichverteilt sein sollten?

Frage 2:
Da das Hashresultat gleichverteilt ist, könnte ich mehrere disjunkte Bereiche desselben Hashresultats nehmen (z.B. die schon angesprochenen unteren 11 Bit und dann noch z.B. die oberen 11 Bit des 256-Bit Hashs), um mehrere unabhängige Hashergebnisse für den Bloom-Filter zu haben? Sind also sich nicht überschneidende Teile desselben Hashswertes unabhängig und gleichverteilt, wenn das Hashresultat als Ganzes gleichverteilt ist?

Vielleicht hat ja jemand ein paar Gedanken dazu. Auch über Anregungen für konkrete, möglichst wenig komplexe Hashalgorithmen, welche den Anforderungen für Bloom-Filter genügen, würde ich mich freuen.

Danke!

Bezug

Hash für Bloom-Filter: Antwort

Status:	(Antwort) fertig
Datum:	20:22 Fr 04.05.2018
Autor:	felixf

Moin

> Ich möchte einen Bloom-Filter implementieren. Dazu
> benötigt man k unabhängige und gleichverteilte
> Hashfunktionen, welche jeweils ein Eingangselement auf
> einen Bereich 0...m-1 gleichverteilt abbilden.
>
> Angenommen m ist 2048 und mein erster Hash produziert
> 256-Bit Werte (also Werte von 0 bis 2^256-1).
>
> Frage 1:
>  Da das Resultat des Hashs gleichverteilt ist, kann ich
> für eine Abbildung des Hashergebnisses auf 0...2047
> einfach das Resultat des Hashs mod 2048 nehmen (also aus
> Implementierungssicht die unteren 11 Bit des 256-Bit
> Hashs), da diese auch gleichverteilt sein sollten?

Genau.

(Das geht allerdings nur, wenn $m$ ein Teiler von [mm] $2^{256}$ [/mm] ist. Ansonsten ist der Rest nicht wirklich gleichverteilt.)

> Frage 2:
>  Da das Hashresultat gleichverteilt ist, könnte ich
> mehrere disjunkte Bereiche desselben Hashresultats nehmen
> (z.B. die schon angesprochenen unteren 11 Bit und dann noch
> z.B. die oberen 11 Bit des 256-Bit Hashs), um mehrere
> unabhängige Hashergebnisse für den Bloom-Filter zu haben?

Ja. Also zumindest dann, wenn die Hash-Funktion gut genug ist ;-)

Bei kryptographischen Hash-Funktionen ist das (eigentlich) kein Problem. Die sind allerdings im Allgemeinen recht langsam, im Vergleich zu anderen (effizienten) Hash-Funktionen (etwa murmur, fnv, HashMix; siehe auch https://llimllib.github.io/bloomfilter-tutorial/).

> Sind also sich nicht überschneidende Teile desselben
> Hashswertes unabhängig und gleichverteilt, wenn das
> Hashresultat als Ganzes gleichverteilt ist?

Wenn das Hashresultat gleichverteilt ist, ist das immer so.

> Vielleicht hat ja jemand ein paar Gedanken dazu. Auch über
> Anregungen für konkrete, möglichst wenig komplexe
> Hashalgorithmen, welche den Anforderungen für Bloom-Filter
> genügen, würde ich mich freuen.

Siehe oben bzw. https://llimllib.github.io/bloomfilter-tutorial/. Ansonsten siehe auch hier: https://www.jasondavies.com/bloomfilter/ und hier: https://willwhim.wpengine.com/2011/09/03/producing-n-hash-functions-by-hashing-only-once/

LG Felix

Bezug

Hash für Bloom-Filter: Mitteilung

Status:	(Mitteilung) Reaktion unnötig
Datum:	09:06 Fr 29.06.2018
Autor:	tc_engineer

Hallo Felix,

danke für deine Antwort. Irgendwie ahnt man im Bereich der Stochastik meist schon, dass es so sein könnte, wie man denkt, aber manchmal gibt es da doch Überraschungen, daher danke für die Bestätigung und die zusätzlichen Links.

Einen kryptographischen Hash will ich nicht verwenden, da meine Implementierung möglichst schnell sein soll. In der Praxis wird es wohl auch mit einer nicht perfekten Gleichverteilung ausreichend gut funktionieren.

Viele Grüße.

Bezug

Ansicht:

[ geschachtelt ]

Forum "Algorithmen und Datenstrukturen" |

Alle Foren |

Forenbaum | Materialien

ev.vorhilfe.de[ Startseite | Mitglieder | Impressum ]