Tech

Binnenkort merk je geen verschil meer tussen AI en menselijke spraak

De hakkelende stemmen van digitale assistenten als Siri zullen niet lang meer zo mechanisch klinken, dankzij een significante doorbraak in het gebruik van AI om menselijke spraak te produceren.

In een nieuw paper onthulden wetenschappers van Google’s DeepMind een neuraal netwerk dat audio produceert door in realtime zijn eigen output voorspelt en aanpast. Het resultaat is veel natuurlijker klinkende spraak – tot vijftig procent minder verschil tussen computers en mensen, volgens de wetenschappers.

Videos by VICE

Het voorspellende model waar het systeem gebruik van maakt is heel andere koek dan de ‘digitale assistent’ van apps als Siri. WaveNet werkt niet met een ‘concatenatief’ spraaksysteem dat ingesproken fragmenten bijeen puzzelt, maar wordt getraind met een enorme database. Het algoritme genereert vervolgens rauwe geluidsgolven met een ‘autoregressief’ model – wat simpelweg betekent dat elke frame van de golf voorspeld wordt op basis van de frames ervoor. Het neurale netwerk werd ontwikkeld uit een soortgelijk model met de naam PixelCNN, wat hetzelfde doet voor afbeeldingen.


Concatenative



WaveNet



“Om er zeker van te zijn dat het systeem wist welke stem deze gebruikte bij het genereren van spraak, conditioneerden we het systeem op de identiteit van de spreker,” schreven de onderzoekers in een blog. “Interessant genoeg kwamen we erachter dat het systeem een enkele spreker beter kon nadoen als we ‘m trainden op meerdere sprekers, wat duidt op een vorm van ‘transfer learning.’” Transfer learning vindt plaats wanneer een systeem iets leert van een taak en dat vervolgens toepast op een andere taak.

WaveNet hoeft niet alleen gebruikt te worden voor spraak: het kan ook enkele muziekstijlen genereren. Het netwerk trainen op klassieke piano leverde een paar griezelig coherente akkoordprogressies op bij het testen.

Maar nog raarder is wat er gebeurt als je het systeem niet vertelt wat het moet doen. Aangezien WaveNet autoregressief is, kan het systeem zelfs een stem genereren zonder tekstinput. Het resultaat is een soort computergebrabbel. De onderzoekers kwamen er ook achter dat het systeem ook zeer goed was in het oppikken van non-verbale spraakklanken, zoals ademen en mondbewegingen.

De stemmen en muziek die gegenereerd worden door WaveNet klinken nog altijd een beetje raar, en het produceren van spraak op deze manier vereist een enorme hoeveelheid computerkracht. Maar als het vergeleken wordt met huidige tekst-naar-spraaksystemen, wordt het duidelijk dat we razendsnel richting de uncanny valley van computerspraak gaan.