Google's AI is nu de beste liplezer ter wereld

Google's AI is nu de beste liplezer ter wereld

...en dat kan heel handig worden

Vorig artikel Volgend artikel

Stel het je voor: je bent op een festival of in een club waar het geluid van de muziek veel te hard staat om een normaal gesprek te kunnen voeren. Of je bent aan het werk met zwaar materieel en iedereen heeft gehoorbeschermers waardoor communicatie moeilijk is. Op dit moment is dat allemaal niet echt op te lossen, althans niet zonder risico voor je oren. Daar zou wel eens verandering in kunnen komen, nu dat Google haar kunstmatige intelligentie (AI) Deepmind heeft leren liplezen met hulp van de Universiteit van Oxford.

Woordenschat

De onderzoekers in kwestie hebben het proces natuurlijk gedocumenteerd en dat kun je hier nalezen, maar kort gezegd komt het er op neer dat ze een paar duizend uur aan politieke programma's van de BBC hebben ingeladen en de AI daarmee hebben getraind om de woorden die gezegd werden te herkennen. Het programma, genaamd “Watch, Listen, Attend, and Spell” heeft zo 118.000 zinnen met 17.500 unieke woorden gezien en kon daar net niet de helft van 'verstaan'. Dat lijkt weinig, totdat je bedenkt dat een professionele liplezer slechts 12 en een half procent kon herkennen.

google-liplezen-ai

Toekomstmuziek

De eerder genoemde applicaties zouden pas werkelijkheid kunnen worden op het moment dat de AI net zoals een aantal andere Google-innovaties op afroep in de cloud beschikbaar is, zodat je met een Google Glass-achtig apparaat gewoon het beeld dat de camera ziet van iemand die praat real-time kunt laten omzetten in tekst. Zo ver zijn we helaas nog niet.

De onderzoekers hebben wel een aantal toepassingen in gedachten waarbij het programma kan helpen. Het zou volgens hen bijvoorbeeld heel handig kunnen zijn om mensen met een gehoorbeperking gesprekken te kunnen laten volgen. Je zou stomme films (zonder geluid, er is geen AI ter wereld die The Love Guru kan redden) van ondertiteling kunnen voorzien, om maar iets te noemen waar niemand om heeft gevraagd. Wel nuttig is dat je Siri of Alexa zou kunnen besturen door zonder geluid tegen je camera te praten, zodat je bijvoorbeeld in het openbaar iets kunt vragen zonder je stom (de Love Guru-variant deze keer) te voelen.

Security

Het addertje onder het gras is natuurlijk dat dit ook wel eens heel goed gebruikt zou kunnen worden voor surveillance. Hoewel de onderzoekers bezweren dat er een groot verschil is tussen het kunnen liplezen in goed belichte studio's met mensen die prima in beeld zijn ten opzichte van beveiligingscamera's met een slechte beeldkwaliteit in lage resolutie staat de techniek natuurlijk niet stil en moeten we er straks dus eventueel rekening mee houden dat Big Brother ons altijd hoort, ook als we geen geluid maken.

Reageren is uitgeschakeld omdat er geen cookies opgeslagen worden.

Cookies toestaan Meer informatie over cookies