Mit der WDF*IDF Formel lässt sich herausfinden in welchem Verhältnis bestimmte Keyword Density), sondern auf dem gesamten Textinhalt.

Formeln zur Berechnung von WDF*IDF

WDF:

WDF (Within Document Frequency) gibt an, wie häufig ein Begriff oder eine Wortkombination innerhalb eines Textes im Vergleich zu allen anderen Wörtern, die enthalten sind, vorkommt. Diese Anzahl wird mit Hilfe eines Logarithmus berechnet. Die Formel lautet:

WDF (i) = log2(Freq(i,j)+1) / log2 (L)

i = Keyword/Begriff

j = Dokument

L = Gesamtzahl der Begriffe im Dokument j

Freq(i,j) = Häufigkeit des Begriffes i im Dokument j

Die Keyworddichte gibt lediglich Auskunft über den prozentualen Wert eines Wortes im Bezug zur Gesamtzahl der Wörter im Dokument. Die WDF Formel berechnet hingegen das Verhältnis aller Wörter, die im Text verwendet wurden. Der Logarithmus ist so ausgelegt, dass eine Erhöhung des Hauptkeywords nicht automatisch zu einem besseren Gesamtwert führt. Löst man den Logarithmus von der Formel, erhält man lediglich die Häufigkeit des Keywords, die dann durch die Anzahl aller Wörter geteilt wird, also die Keyword Density.

IDF:

IDF (Inverse Document Frequency) ergänzt die Formel zur Termberechnung. Wie bereits erwähnt, spielt bei der WDF das Verhältnis eines Wortes zu anderen Dokumenten, die das Keyword enthalten, eine Rolle. Durch das IDF wird die Häufigkeit dieser Dokumente berücksichtigt und vervollständigt somit das WDF. Das IDF wird folgendermaßen berechnet:

IDFt = log (1 + ND/ft)

ND = Anzahl der Dokumente

ft = Anzahl der Dokumente die Begriff t beinhalten

Die IDF Formel ermittelt die Relevanz eines Textes bezüglich eines bestimmten Keywords. Allgemein gilt: Je weniger Dokumente mit diesem Keyword existieren, umso höher ist der Wert des WDF*IDF.

Multipliziert man beide Formeln, ergibt dies die relative Gewichtung des Keywords im Verhältnis zu allen möglichen Dokumenten, die dieses Keyword ebenfalls aufweisen. Es ist wichtig, diese Formel für jedes Keyword oder jede Begriffskombination einzeln anzuwenden, da sonst kein nützliches Ergebnis erzielt wird.

WDF*IDF und SEO

Bis jetzt setzten Suchmaschinenoptimierer auf die Berechnung der Keyworddichte. Das WDF*IDF ist jedoch die genauere Variante und bessere Möglichkeit um den Content einer Webseite zu optimieren, weshalb erfahrene SEOs vermehrt zu diesem Verfahren greifen. Es gibt einige WDF*IDF Tools, die diesen Wert berechnen und sich somit einen großen Arbeitsaufwand ersparen.

Die Programme teilen auch mit welche Wörter weniger oder häufiger vorkommen sollen, um einen guten Wert zu erzielen. Bei richtiger Anwendung ist nachgewiesen, dass Formeln bzw. Programme, die mit dieser Formel arbeiten, das Ranking einer Seite positiv beeinflussen können.

Nachteile der Formel

Alle Bestandteile einer Webseite werden für die Analyse zur Termgewichtung herangezogen. Beispielsweise fallen bei Online-Shops Überschriften und Produktbezeichnung für die Berechnung ebenfalls ins Gewicht. Wollen Online-Shops ein Produkt lediglich beschreiben, ist die WDF*IDF Berechnung zur Verbesserung des Contents weniger gut geeignet. Für diese Formel ist es wichtig, dass viel Text vorhanden ist.

WDF*IDF bezieht sich auf den gesamten Text und ist nicht darauf ausgelegt, dass sich Wörter innerhalb eines Absatzes zu häufig wiederholen. Auch Stemming-Regeln oder verstärkte Arbeit mit Synonymen werden von der Formel nicht berücksichtigt.

© ilkercelik – stock.adobe.com