​TF*IDF: Content optimaliseren voor de 21e eeuw

​TF*IDF: Content optimaliseren voor de 21e eeuw

Vorig artikel Volgend artikel

Hoe optimaliseer je content voor Google? De Duitse SEO-goeroe Marcus Tandler zweert bij TF*IDF. En hij niet alleen. Zeker de helft van de honderd populairste Duitse sites schijnt deze formule te gebruiken om te scoren met content. Als dat klopt, is het nu tijd om TF*IDF nader te onderzoeken. Spring op de kar voor hij zonder je vertrekt.

On-page criteria

Zoekmachines gebruiken bij de ranking van websites voor een bepaalde zoekterm zowel off-page als on-page criteria. Tot de eerste categorie behoren externe links die naar een URL leiden. Over de tweede categorie, de on-page criteria, heb je als webmaster de meeste macht. We vinden daar onder meer het gebruik van zoektermen.

Er zijn verschillende manieren om het gewicht van een zoekterm op een webpagina te bepalen. De frequentie waarmee ze wordt gebruikt, is de bekendste. Vroeger was dit zaligmakend. Pagina’s met de juiste keyword density, en met de zoektermen in de meta tags, scoorden haast vanzelf goed in Google. Die tijd is voorbij. Het was te gemakkelijk om te manipuleren.

Nu is er een complex aan factoren dat een rol speelt. Wil een tekst scoren, moeten er meerdere zoektermen op een pagina voorkomen die allemaal relevant zijn voor het overkoepelende onderwerp.

Wat is TF*IDF?

Alleen, hoe bepaal je welke zoektermen relevant zijn voor jouw topic? En hoe vaak moet je ze gebruiken om een kans te maken t.o.v. de concurrentie?

Een manier om hierachter te komen biedt TF*IDF. Het is een rekenkundige formule die de inhoud van een pagina nauwkeurig op waarde weet te schatten. TF*IDF vermenigvuldigt het gebruik van keywords binnen één document met de frequentie van dit begrip in een groter geheel van documenten, “corpus” genaamd. Het corpus kan een groep concurrerende webpagina’s zijn, maar ook een verzameling pagina’s van je eigen site.

Nieuw is de formule allerminst. Ze is afkomstig uit de statistiek en de geschiedenis gaat terug tot in de jaren vijftig van de vorige eeuw, lang voordat er van internet sprake was. Vandaag wordt TF*IDF intensief gebruikt op OnPage.org, een veelzijdige SEO-tool van Marcus Tandler. Hij is een van Duitslands meest vooraanstaande internetexperts en een pionier op het gebied van SEO.

TF*IDF: Een hit in Duitsland

Met OnPage.org kun je na een grondige analyse bestaande content optimaliseren. De tool is tevens geschikt om nieuwe content te creëren. Je kunt nagaan welke begrippen je nodig hebt om de strijd aan te gaan met met de topresultaten voor jouw zoekterm in Google.

OnPage.org is in Nederland niet zo bekend. Dat kan echter snel veranderen. Tandler richtte zich voordien uitsluitend op de Duitse markt en besloot zich onlangs op het buitenland te richten. Als sterkste argument kan gelden dat in Duitsland meer dan de helft van de top 100-websites OnPage.org schijnt te gebruiken. Volgens Tandler gebruiken niet alleen grote kranten het in hun voordeel, maar ook kleine webwinkels.

TF*IDF vormt het hart van OnPage.org. De identificatie van homoniemen ligt aan de basis van de formule. Tandler geeft graag “Java” als voorbeeld. Schrijf je een tekst over “Java” en er komen woorden als “Indonesië” en “eiland” in voor, zal de pagina niet scoren voor iemand die zoekt naar “Java programmeren”. De tekst kan wel scoren voor wie zoekt naar “Java vakantie”. Gaat een artikel over “Java” maar staan er ook woorden als “smaak” en “bonen” in, gaat de tekst vermoedelijk over koffie.

TF*IDF: hoe werkt het?

Zoals de naam aangeeft, bestaat de formule uit twee delen:

  • TF staat voor Term Frequency. Hiermee wordt de frequentie van het zoekbegrip gemeten. Hoe langer een tekst, hoe vaker een belangrijk zoekwoord erin voorkomt. TF = aantal malen dat zoekterm voorkomt / aantal woorden in de tekst (het document)
  • IDF betekent Inverse Document Frequency. Dit meet het belang van de zoekterm voor de relevantie van de tekst binnen het corpus. Veelvoorkomende woorden, stopwoorden dus, tellen niet mee. IDF = totaal aantal documenten binnen het corpus / totaal aantal zoektermen binnen document

Een voorbeeld. Je leest een tekst van 500 woorden waarin het woordje “rente” vijf keer voorkomt. Kortom, TF = 5/500 = 0.01. De tekst maakt deel uit van een geheel van honderd teksten. In veertig van die honderd komt “rente” voor. IDF = 100/40 = 2.5. Resultaat: TF*IDF = 0.01 x 2.5 = 0.025.

Hoe OnPage.org de formule gebruikt

Op OnPage.org wordt de top-15 in Google voor een bepaalde zoekterm geanalyseerd. Daarbij duikt niet alleen de onderzochte zoekterm op, maar worden ook alle andere relevante keywords voor dit onderwerp genoemd. Deze analyse vergelijkt de software met een van je eigen URL’s. Het resultaat wordt weergegeven in een staafdiagram.

DutchCowboys.nl Voorgesteld Beeldmateriaal TF-IDF Diagram

Het voorbeeld hierboven, afkomstig uit een video van OnPage.org, betreft het woord “iPhone”. Donkerblauw staat voor de gemiddelde TF*IDF-score van de hoogste zoekresultaten in Google tezamen, voor elk van de onderzochte keywords. Het lichtere blauw geeft de score aan voor de mate waarin de term op afzonderlijke pagina’s wordt gebruikt. Om beter te scoren dan het gemiddelde, zonder je aan keyword spamming schuldig te maken, moet je de groene staaf bereiken.

OnPage.org heeft een handige feature waarbij je een tekst realtime op TF*IDF kunt analyseren. Je vindt vanzelf verwante begrippen (geen writer’s block meer!) en kunt ze in de juiste aantallen gebruiken. Dat is content optimaliseren terwijl je schrijft!

Google gebruikt TF*IDF al jaren, volgens Tandler en andere vooraanstaande search specialisten, en bij Yandex, de grootste Russische zoekmachine, schijnt het de op twee na belangrijkste rankingfactor te zijn. Alleen deze gegevens al maken het de moeite waard om deze aloude berekeningsmethode serieus te nemen. Een bijkomende reden is dat de zoektermanalyses met deze formule buiten Duitsland nog lang niet ingeburgerd zijn. Wie het nu toepast, zou zichzelf weleens een belangrijke voorsprong kunnen geven.

Deze blogpost is geschreven door Romano Groenewoud, Zoekmachine Optimalisatie Specialist.

[Afbeelding © Artur Marciniec- Fotolia]

Meer content

Reageren is uitgeschakeld omdat er geen cookies opgeslagen worden.

Cookies toestaan Meer informatie over cookies