SES San Jose - Semantic Search

Di 19 augustus 2008 07:09, Mark Farragher, 4591 views

SES San Jose - Semantic Search

Een leuke sessie op Search Engine Strategies in San Jose gaat over Semantic Search. Denk hierbij aan nieuwe bedrijven als Hakia en Powerset die met behulp van taalanalyse proberen te achterhalen wat de betekenis is van een zoekopdracht en de tekst in de zoekresultaten. Wat kunnen we op korte termijn verwachten van Semantic Search?

Nagaraju Bandaru (CTO van BooRah) noemt een leuke statistiek: de overgrote meerderheid van actuele zoekopdrachten bestaan uit losse keywords, maar 5% bestaat uit lange zinnen zoals “what is the population size of Japan”. Met name voor dit soort zoekopdrachten is semantic search ideaal.

 

IMG_17101

Erik Collier van Ask.com neemt het bovenstaande voorbeeld en test alle huidige grote zoekmachines – geen enkele vindt direct het goede resultaat, zelfs PowerSet heeft moeite met deze opdracht. Haal echter het woord “size” weg en ineens vinden ze bijna allemaal het juiste antwoord! Dit illustreert een groot probleem met de huidige zoekmachines: verschillende zoekopdrachten met dezelfde betekenis moeten hetzelfde resultaat opleveren. Dit is nu niet het geval. Op een vraag uit het publiek hoe lang het nog gaat duren voordat dit probleem is opgelost antwoord Erik “It's gonna take years”.

Amit Kumar (Director Product Management van Yahoo) neemt als voorbeeld een zoekopdracht naar “Urinary tract infection”. Hij laat een mooie SERP pagina zien waarin allerhand medische informatie samengevoegd is. Het doet mij sterk denken aan de Universal/Blended search voorbeelden van vanochtend, waarbij gerelateerde informatie op een handige manier gepresenteerd wordt. Dit is volgens mij het grote voordeel van semantic search: je kunt ermee de resultaten van iedere zoekopdracht in 'blended' formaat laten zien.

Scott Prevost (General Manager van Powerset) laat een voorbeeld zien van een zoekopdracht naar “Henry VIII”. De zoekmachine laat resultaten zien over de persoon, het toneelstuk, de opera en een tv-serie, en mixt informatie van Wikipedia in het resultaat. Zeer indrukwekkend allemaal.

Al met al ziet semantic search er heel interesant uit. Je kunt ermee in principe iedere zoekopdracht in blended vorm weergeven. Voor de marketeer zijn er ook voordelen, eigenlijk dezelfde die ook al genoemd werden bij Universal search. Amit Kumar noemt een click-through rate van 15% op zoekresultaten van een semantic search. Het levert dus gericht bezoekers af op een site die vervolgens beter converteren.

 


  • Reacties (4)
  • Events
  • Twitter
  • Tell-a-cowboy

Reacties (4)

 

  • Mark, ik ben jaloers. Hier had ik bij willen zijn. Al in 1985 hebben Frits Oomes en ik bij Uitgeverij Spectrum (encyclopedieën) in samenwerking met Prof Gerard Kempen van de universiteit van Nijmegen een op taal en zinnen gebaseerde zoekmachine ontwikkeld. Te vroeg lijkt nu. Overigens denk ik dat het een trend zal worden dat de (combinatie) van worden en zinnen in Google worden ingegeven. Mischien wel hele alinea's tekst. Dr. de Heer van TNO wist in die tijd al een op basis van een stochastische analyse een prachtig zoekalgorime te ontwikkelen, waarbij ook de bronnen waarin gezocht worden moeten worden geanalyseerd. Feitelijk heb je er niet zo veel an als je de zoekvraag semantisch weet te ontrafelen, als je de tig miljard documenten op Interent niet gelijktijd semantisch hebt geanalyseerd. Eeerlijk gezegd zou ik niet aan de zoekvraag kant, maar aan de aanbod kant beginnen met semantische analyses. Dat is namelijk het tijdrovenste, moeilijkste en kostbnare deel van semantiek op het Internet.

    Tue 19 Aug 2008, 10:12


    • Tristan Thomas Teunissen
    • [website]

    @dick ahles
    Je noemt idd een vd grootste bottlenecks voor semantic search; data opslag + computing power.
    Powerset (inmiddels overgenomen door microsoft)wordt dikwijls als een van de grootste spelers binnen de semantic search genoemd, terwijl deze echter enkel nog op basis van wikipedia artikelen werkt (aangezien deze gestructureerd gecrawled kunnen worden). De tijd dat het gehele web door een semantische zoekmachine gecrawled kan worden zal zeker nog enkele jaren duren, en is wellicht zelfs toekomst muziek. Daarnaast moet je je altijd afvragen en bekijken of semantic search nu daadwerkelijk betere zoekresultaten oplevert, aangezien google voor de meeste zoekvragen toch zeer goede resultaten levert (buiten ambigue gevallen). Ik denk eerder dan we semantic search voo in kleinere (specialistische) gebieden moeten zien: bijvoorbeeld verticals++.

    Tue 19 Aug 2008, 10:46


  • Google kan met statistische analyses intern zelf automatisch beperkt semantische verbanden leggen in tekst. Men gebruikt daarnaast al latent semantic indexing om zoekresultaten te verbeteren.
    http://www.cognition.com beweert een van de beste methodes te hebben om semantische data uit tekst te extraheren.
    Aan de andere kant zijn er al allerlei intiatieven om een semantisch databases via rdf/sparql te ontsluiten: http://en.wikipedia.org/wiki/Linked_Data

    In de praktijk kan ik vrij snel via google antwoorden op specifieke vragen vinden via het gebruik van alleen keywords. Ik ga natuurlijk wel meteen naar musicbrainz, imdb of ov9292 wanneer ik informatie uit een specifiek domein nodig heb. Weten waar je welke informatie moet vinden is een belangrijke vaardigheid, die niet iedereen beheerst.

    Tue 19 Aug 2008, 11:51


  • @Tristan Thomas Teunissen en @Francis Siefkens. Trend zal zijn dat competitie tussen algemene zoekmachines (en die komt er onvermijdelijk) zal gaan over de relevantie van de zoekresultaten.Dit dwingt de zoekmachines dan onvermijdelijk naar semantische oplossingen te zoeken. Immers de huidige methoden lost het probleem van de homoniemen, exoniemen en de synoniemen niet op. Daarnaast zal met de groei van de informatie op internet de kans dat uit de huidige algoritmes van Google relevante informatie komt lager wordt. Ook dit maakt het investeringen in de kwaliteit van de zoekrsultaten onvermijdelijk. let wel op de relevantie, respectievelijk kwaliteit van de zoekresultaten kan alleen worden afgemeten aan de bedoeling van de gebruiker die een zoekmachine een opdracht geeft. Daar zijn zogenaamde α- en ß-fouten bij mogelijk. De bedoeling van de zoeker kan alleen worden afgeleid bij voldoende trefwoorden door die gebruiker ingegeven.
    Zie verder mijn artikel "Semantic Google" op de website Publishing 4.0: http://www.vierpuntnul.nl/2008/06/semantic-google/.
    Frits en ik hebben nog steeds veel kennis over semantiek (we hebben de grootste encyclopedische semantische netwerk van Nederland gebouwd) waar voor de huidige search jongens nog veel kennis is weg te halen.
    Tegen de negatieve trend staat een posiieve in de relevantie: de gebruikers typen steeds meer trefwoorden per zoeksessie in. dat betekent dat we steeds meer in de long-tail van trefwoorden, en hoe dieper in de longtail hoe groter de kans is op relevante antwoorden, rspectievelijk geen resultaten (wat zeer relevant is).
    Tenslotte dat u en ik uit redelijk ongesoorteerde zoekresultaten snel relevanten van niet-relevanten uitkomsten kunnen onderscheiden, heeft alles te maken dat wij aan de goede kant van de bell-curve redelijk diep in de long-tail verkeren.

    Tue 19 Aug 2008, 19:37

Reageren

  • HTML niet toegestaan. URL's worden automatisch clickable.
    * E-mail adres wordt niet getoond



  • Interview met Stefan Weitz door Bas van den Beld
  • News in Google : News Search SEO
  • Will SEO still exist in five years?
  • Interview met Peter van der Graaf op SES London
  • Lisa Ditlefsen: "Nothing that's worth having comes easy"
  • De presentatie van Nick Carr tijdens Search Engine Strategie
  • Search Engine Strategies met Maurits-Jan Groen
  • Video SES 2008: Microsoft Analytics

Gerelateerde tweets


DC Fotofeed

404 Building not found

DC Mobile

Laatste reacties



Agenda

» SXSW  DC will be here

Austin, Texas

12 maart 2010 / 21 maart 2010

» The Marketing 2.0 Conference  DC will be here

Paris

22 maart 2010 / 23 maart 2010

» E-Reading event 2010

High Tech Campus Eindhoven

23 maart 2010

» Trendsfactory  DC will be here

Zaltbommel

25 maart 2010

» Microsoft Devdays

World Forum in Den Haag

30 maart 2010 / 31 maart 2010

» SpinAwards 2009  DC will be here

Amsterdam

08 april 2010


Nieuwsbrief

Schrijf je in voor de DC nieuwsbrief:



Zoeken



Marketing 2.0Trendsfactory
Advertising



The Next Web

My BlogLog


Flickr

  • Het vingertje van KemkersDrama Sven Kramer in Beeld
  • Brabarts toekomstige poptempelZoomvlietStudio Bergen op Zoom
  • Proeverij Caruso Roosendaals mooiste ;)Facebook Boek
  • Yolanda 40 jaar lunchpartyExit 2
  • The End of CultuurnachtNHTV Breda
» DC op Flickr


Subscribe with Bloglines Add to Google

RSS Feed


© 2004-2010 Dutchcowboys.nl - All Rights Reserved - Personal weblog of Henk de Hooge and Paul Aelen.

All views and opinions expressed are those of the authors of Dutchcowboys.

All trademarks, slogans, text or logo representation used or referred to in this website are the property of their respective owners. Sitemap