Alexa krijgt een nieuwe, flink verbeterde stem

Alexa krijgt een nieuwe, flink verbeterde stem

Nieuw prosodisch patroon klinkt als een nieuwslezer

Vorig artikel Volgend artikel

Amazon's Alexa kan al heel wat en je zou misschien ook wel zeggen dat de AI-spraakassistent ook best een prettige stem heeft. Die wordt echter nog niet goed genoeg gebruikt, zo vindt men bij Amazon. De intonatie is nog een beetje robotisch, bij gebrek aan een beter woord. Spraakassistenten praten inmiddels steeds vaker 'generatief' via neurale netwerken, in plaats van met kleine stukjes geluid die aan elkaar geplakt worden. Het voordeel, naast het natuurlijkere geluid, is dat die netwerken ook qua intonatie getraind kunnen worden met allerlei data.

Dat heeft Amazon recent gedaan, specifiek met data van een heel aantal nieuwslezers, vanwege hun specifieke intonatie. Dat wordt een prosodisch patroon genoemd en het blijkt dat de generatieve stem van Alexa vrij makkelijk dat soort patronen aangeleerd kan krijgen. De nieuwslezer-intonatie was in slechts een paar uur trainen gedaan, door naar opnames van echte nieuwslezers te 'luisteren' en die patronen over te nemen.

Wie is de echte nieuwslezer?

Amazon testte de nieuwe stem, waarbij een echte nieuwslezer, de ouderwetse 'samples-aan-elkaar-plakken methode, de stem van Alexa nu en het nieuwe prosodische patroon dat Alexa aangeleerd had gekregen. De echte nieuwslezer heeft het gewonnen qua luisterplezier, maar de gegenereerde nieuwslezer-stem kwam daar heel dichtbij qua waardering.

Het mooie van die ontwikkeling is dat zo'n spraakpatroon, eenmaal geleerd, makkelijk als 'preset' te gebruiken is voor bepaalde onderwerpen of in bepaalde apps. Ook andere manieren van praten zouden zo vermoedelijk vrij makkelijk nagebootst kunnen worden, waarna specifieke onderwerpen zo'n ander patroon toegekend kunnen krijgen. Vermoedelijk is de recent toegevoegde fluistertoon van Alexa het eerste voorbeeld van deze manier van spraakgeneratie, maar er gaan er dus nog meer volgen, te beginnen met de nieuwe 'nieuwslezer'-stem. Wanneer we die thuis kunnen horen heeft Amazon helaas niet gezegd.

[Afbeeldingen © Amazon]

Meer content

Patrick Smeets

Game-enthousiast, tech blogger en presentator. Was ooit rockster. Local celebrity in Limburg maar ziet graag veel van de wereld. Er zijn niet genoeg kattenGIFjes...

Reageren is uitgeschakeld omdat er geen cookies opgeslagen worden.

Cookies toestaan Meer informatie over cookies