SES San Jose - Semantic Search

SES San Jose - Semantic Search

Een leuke sessie op Search Engine Strategies in San Jose gaat over Semantic Search. Denk hierbij aan nieuwe bedrijven als Hakia en Powerset die met behulp van taalanalyse proberen te achterhalen wat de betekenis is van een zoekopdracht en de tekst in de zoekresultaten. Wat kunnen we op korte termijn verwachten van Semantic Search?

Nagaraju Bandaru (CTO van BooRah) noemt een leuke statistiek: de overgrote meerderheid van actuele zoekopdrachten bestaan uit losse keywords, maar 5% bestaat uit lange zinnen zoals “what is the population size of Japan”. Met name voor dit soort zoekopdrachten is semantic search ideaal.

 

IMG_17101

Erik Collier van Ask.com neemt het bovenstaande voorbeeld en test alle huidige grote zoekmachines – geen enkele vindt direct het goede resultaat, zelfs PowerSet heeft moeite met deze opdracht. Haal echter het woord “size” weg en ineens vinden ze bijna allemaal het juiste antwoord! Dit illustreert een groot probleem met de huidige zoekmachines: verschillende zoekopdrachten met dezelfde betekenis moeten hetzelfde resultaat opleveren. Dit is nu niet het geval. Op een vraag uit het publiek hoe lang het nog gaat duren voordat dit probleem is opgelost antwoord Erik “It's gonna take years”.

Amit Kumar (Director Product Management van Yahoo) neemt als voorbeeld een zoekopdracht naar “Urinary tract infection”. Hij laat een mooie SERP pagina zien waarin allerhand medische informatie samengevoegd is. Het doet mij sterk denken aan de Universal/Blended search voorbeelden van vanochtend, waarbij gerelateerde informatie op een handige manier gepresenteerd wordt. Dit is volgens mij het grote voordeel van semantic search: je kunt ermee de resultaten van iedere zoekopdracht in 'blended' formaat laten zien.

Scott Prevost (General Manager van Powerset) laat een voorbeeld zien van een zoekopdracht naar “Henry VIII”. De zoekmachine laat resultaten zien over de persoon, het toneelstuk, de opera en een tv-serie, en mixt informatie van Wikipedia in het resultaat. Zeer indrukwekkend allemaal.

Al met al ziet semantic search er heel interesant uit. Je kunt ermee in principe iedere zoekopdracht in blended vorm weergeven. Voor de marketeer zijn er ook voordelen, eigenlijk dezelfde die ook al genoemd werden bij Universal search. Amit Kumar noemt een click-through rate van 15% op zoekresultaten van een semantic search. Het levert dus gericht bezoekers af op een site die vervolgens beter converteren.

 

Tags: san jose, seo, ses

Reacties (5)

  • Mark, ik ben jaloers. Hier had ik bij willen zijn. Al in 1985 hebben Frits Oomes en ik bij Uitgeverij Spectrum (encyclopedieën) in samenwerking met Prof Gerard Kempen van de universiteit van Nijmegen een op taal en zinnen gebaseerde zoekmachine ontwikkeld. Te vroeg lijkt nu. Overigens denk ik dat het een trend zal worden dat de (combinatie) van worden en zinnen in Google worden ingegeven. Mischien wel hele alinea's tekst. Dr. de Heer van TNO wist in die tijd al een op basis van een stochastische analyse een prachtig zoekalgorime te ontwikkelen, waarbij ook de bronnen waarin gezocht worden moeten worden geanalyseerd. Feitelijk heb je er niet zo veel an als je de zoekvraag semantisch weet te ontrafelen, als je de tig miljard documenten op Interent niet gelijktijd semantisch hebt geanalyseerd. Eeerlijk gezegd zou ik niet aan de zoekvraag kant, maar aan de aanbod kant beginnen met semantische analyses. Dat is namelijk het tijdrovenste, moeilijkste en kostbnare deel van semantiek op het Internet.

    Di 19 aug 2008, 10:12 [reply]

    • Tristan Thomas Teunissen
    • [website]

    @dick ahles
    Je noemt idd een vd grootste bottlenecks voor semantic search; data opslag + computing power.
    Powerset (inmiddels overgenomen door microsoft)wordt dikwijls als een van de grootste spelers binnen de semantic search genoemd, terwijl deze echter enkel nog op basis van wikipedia artikelen werkt (aangezien deze gestructureerd gecrawled kunnen worden). De tijd dat het gehele web door een semantische zoekmachine gecrawled kan worden zal zeker nog enkele jaren duren, en is wellicht zelfs toekomst muziek. Daarnaast moet je je altijd afvragen en bekijken of semantic search nu daadwerkelijk betere zoekresultaten oplevert, aangezien google voor de meeste zoekvragen toch zeer goede resultaten levert (buiten ambigue gevallen). Ik denk eerder dan we semantic search voo in kleinere (specialistische) gebieden moeten zien: bijvoorbeeld verticals++.

    Di 19 aug 2008, 10:46 [reply]

  • Google kan met statistische analyses intern zelf automatisch beperkt semantische verbanden leggen in tekst. Men gebruikt daarnaast al latent semantic indexing om zoekresultaten te verbeteren.
    http://www.cognition.com beweert een van de beste methodes te hebben om semantische data uit tekst te extraheren.
    Aan de andere kant zijn er al allerlei intiatieven om een semantisch databases via rdf/sparql te ontsluiten: http://en.wikipedia.org/wiki/Linked_Data

    In de praktijk kan ik vrij snel via google antwoorden op specifieke vragen vinden via het gebruik van alleen keywords. Ik ga natuurlijk wel meteen naar musicbrainz, imdb of ov9292 wanneer ik informatie uit een specifiek domein nodig heb. Weten waar je welke informatie moet vinden is een belangrijke vaardigheid, die niet iedereen beheerst.

    Di 19 aug 2008, 11:51 [reply]

  • @Tristan Thomas Teunissen en @Francis Siefkens. Trend zal zijn dat competitie tussen algemene zoekmachines (en die komt er onvermijdelijk) zal gaan over de relevantie van de zoekresultaten.Dit dwingt de zoekmachines dan onvermijdelijk naar semantische oplossingen te zoeken. Immers de huidige methoden lost het probleem van de homoniemen, exoniemen en de synoniemen niet op. Daarnaast zal met de groei van de informatie op internet de kans dat uit de huidige algoritmes van Google relevante informatie komt lager wordt. Ook dit maakt het investeringen in de kwaliteit van de zoekrsultaten onvermijdelijk. let wel op de relevantie, respectievelijk kwaliteit van de zoekresultaten kan alleen worden afgemeten aan de bedoeling van de gebruiker die een zoekmachine een opdracht geeft. Daar zijn zogenaamde α- en ß-fouten bij mogelijk. De bedoeling van de zoeker kan alleen worden afgeleid bij voldoende trefwoorden door die gebruiker ingegeven.
    Zie verder mijn artikel "Semantic Google" op de website Publishing 4.0: http://www.vierpuntnul.nl/2008/06/semantic-google/.
    Frits en ik hebben nog steeds veel kennis over semantiek (we hebben de grootste encyclopedische semantische netwerk van Nederland gebouwd) waar voor de huidige search jongens nog veel kennis is weg te halen.
    Tegen de negatieve trend staat een posiieve in de relevantie: de gebruikers typen steeds meer trefwoorden per zoeksessie in. dat betekent dat we steeds meer in de long-tail van trefwoorden, en hoe dieper in de longtail hoe groter de kans is op relevante antwoorden, rspectievelijk geen resultaten (wat zeer relevant is).
    Tenslotte dat u en ik uit redelijk ongesoorteerde zoekresultaten snel relevanten van niet-relevanten uitkomsten kunnen onderscheiden, heeft alles te maken dat wij aan de goede kant van de bell-curve redelijk diep in de long-tail verkeren.

    Di 19 aug 2008, 19:37 [reply]

  • Thanks for taking the time to discuss this, I feel strongly about it and love learning more on this topic. If possible, as you gain expertise, would you mind updating your blog with more information? It is extremely helpful for me.

    Ma 10 jan 2011, 15:49 [reply]

Reageren

  • HTML niet toegestaan. URL's worden automatisch clickable.
    * E-mail adres wordt niet getoond

Recommend on Google

Headlines

© 2004-2011 Dutchcowboys.nl - All Rights Reserved.

All views and opinions expressed are those of the authors of Dutchcowboys.

All trademarks, slogans, text or logo representation used or referred to in this website are the property of their respective owners. Sitemap