Google's N-gram modellen

Vorig artikel Volgend artikel
1154781924google

Het Google Research blog meldt dat Google-researchers de enorme database met woorden waarover Google beschikt (naar verluidt meeer dan 1 triljoen), hebben gebruikt om talige constructies en woord-volgordes te analyseren. Door grote hoeveelheden text volgens een populaire natural language processing techniek (het N-gram-model van Shannon) te analyseren, zijn o.a. logische(re) woordcombinaties te filteren.

Uit 't research-project wordt info gehaald als 'de meest gebruikte woorden in 't nederlands', 'de meest voorkomende woordcombinaties van 2 woorden' etc. Deze talige output wordt weer verwerkt in zoekmachines om die slimmer te maken bij 'misspellings' en 'statistic machine translation', of 't toekomstige ideaalbeeld van Sergey, speech-recognition-search.

Dit soort projecten vereisen enorme capaciteit uit datacenters, en wat zeker niet 'evil' is, is dat Google de corpus met data beschikbaar maakt voor de research-community. Dat gebeurt t.z.t. via een bericht op LDC.

Paul Aelen

Reageren is uitgeschakeld omdat er geen cookies opgeslagen worden.

Cookies toestaan Meer informatie over cookies