De evolutie van websearch

Search20 dec 2007, 7:00doorJeroen de Hooge

de-evolutie-van-websearch.jpg

In Technology Review staat een interessant interview van Kate Greene met Peter Norvig, hoofd research bij Google. In dit artikel komt onder andere naar voren wat de visie van Google is op natuurlijke taal voor websearch. Norvig is expert in A.I. (kunstmatige intelligentie) en is zo’n beetje al zijn hele leven bezig met hoe computers denken en hoe deze nog efficiënter te maken. Norvig doceerde aan enkele universiteiten, werkte bij NASA , en schreef ‘AI: A Modern Approach’. In 2001 kwam hij bij Google terecht.

Toen Norvig in 2001 bij Google terecht kwam was web search nog redelijk eenvoudig: er wordt een pagina met resultaten gegenereerd met de meest relevante documenten voor gegeven query bovenaan. Maar ondertussen is het web gegroeid en moeten mensen meer(soortige) informatie snel kunnen filteren. In het artikel beantwoordt Norvig enkele interessante vragen.

Waarom is in de afgelopen 10jaar de look en feel van Google websearch amper veranderd?

We hebben iets bedacht dat mensen gewoon het prettigste vinden, we waren overigens niet het eerst die deze interface bedacht hebben. Eerdere zoekmachines als excite hadden al bewezen dat het handig is dat je een invulveld hebt waar je je query invult en vervolgens krijg je een lijst met de 10 best matchende resultaten en bij elk resultaat staat een korte beschrijving. Dit principe is simpel maar werkt gewoon enorm goed.

Wat is er wel veranderd? De achterkant bevat duizenden keren meer informatie, en ook zijn er inmiddels veel meer verschillende soorten media en bestandstypen. Ook is de ververs snelheid van de indexen veranderd, Enkele jaren geleden was het nog toereikend om indexen 1maal per maand te verversen, zoals bij bibliotheeksystemen waarbij de collectie ook gestaag groeit. Maar nu wil je indexen het liefst geheel uptodate hebben, zo dat het nieuws van 5min geleden al in de indexen verwerkt is.

Er wordt gezegd dat de accuraatheid van Google redelijk goed is, maar hoe weet men dit? En hoe maak je het beter?

We testen en tracken veel bij Google, als gebruikers op het eerste resultaat klikken en zijn vervolgens klaar met zoeken, weten we dat onze nummer 1 dus een goed antwoord was op de informatievraag van de gebruiker . Als ze veel moeten scrollen, door pagina’s skippen of een nieuwe query starten, weten we dat we niet het juiste antwoord hebben gegeven. Wat we ook doen is random queries genereren en getrainde personen (ingehuurd) de resultaten laten beoordelen. Dit soort oordelen zien we als een soort van gouden standaard. Maar aangezien het mensenwerk is, kunnen we nooit zoveel testen als onze datacenters genereren. Verder nodigen we ook mensen uit om ons te bezoeken in onze laboratoria, of we filmen ze thuis om te bekijken waar ze problemen mee hebben.

Bedrijven als Ask en Powerset hebben een sterk geloof in search dmv natuurlijke taal, zodat we in onze eigen woorden een vraag kunnen stellen aan het systeem. Dit kan eventuele ambiguitetsproblemen voorkomen. Wat gaat google met natuurlijke taal doen?

Wat google belangrijk aan natuurlijk taal vindt is het kunnen extraheren van de juiste informatiebehoefte uit een vraag. Maar we denken niet dat het in kunnen typen van een vraag in natuurlijke taal beter is dan het intikken van keywords. Een zin als ‘Wat is de hoofdstad van Frankrijk; is niet significant beter als het tikken van de keywords ‘hoofdstad Frankrijk’ . Wat wel belangrijk is om te weten is de verbintenis tussen woorden. Iets als ‘New York’ is anders dan ‘York’, maar ‘Vegas’ is weer hetzelfde als ‘Las Vegas’. En ‘Jersey’ en ‘New Jersey’ kan afhankelijk van de context wel of niet hetzelfde betekenen. Onze focus ligt dan dus ook in deze verbintenis van woorden. We bekijken dit vooral op woord en zinsdeel niveau en niet kijken zozeer naar een gehele zin.

Wordt google search persoonlijker?

We zijn op verschillende vlakken bezig. Zo personaliseren we bijvoorbeeld al nieuws en geven we gebruikers aanbevelingen voor nieuws artikelen. We bekijken wat voor nieuws een gebruiker bekijkt en vergelijken dit met andere gebruikers. Dit is eenvoudiger dat onze gehele databases te moeten doorzoeken naar geschikte artikelen voor de gebruiker. Deze technologie werkt perfect, alleen om deze technologie voor het hele web in te gaan zetten, is tamelijk complex, daarom beginnen we simpel met het nieuws.

Google over 2 tot 5 jaar? Er zal nog meer diversiteit aan content zijn. We zijn bezig met spraakherkenning en er komen verschillende interfaces op telefoons waar we ons ook mee gaan bezighouden. We gaan meer en meer verschillende typen data integreren in de websearch, vroeger moest je zelf nog een keuze maken tussen internet, afbeeldingen of video. Nu geven we een resultaten pagina terug met alle typen door elkaar heen, op zo een manier, dat het voor de gebruiker zijn gevoel klopt.

technologyreview.com

De evolutie van websearch

Google geeft je misschien ooit de optie om niet in AI-overzichten en AI-modus voorbij te komen

Waarom Kansas City ineens populair is onder Nederlanders

Grappig: Zo kun je Google AI-overzichten dwarsliggen

Google gaat informatie van social media halen voor AI Overviews

doorJeroen de Hooge