Go to Menu
Celebrating 25 Years of Voice! 🎉

Voice in e-learning: tekst-naar-spraak of stemacteurs?

juni 1, 2022 by Amy Foxwell
E-learner zit achter laptop met koptelefoon in de hand.

We kunnen het bedrijven die hun e-learning-curriculum uitbreiden niet genoeg op het hart drukken: voeg audio toe aan je lesmateriaal. Learning & Development-professionals weten dat ‘luisteren’ een integraal onderdeel van het programma moet zijn, zowel in het lesontwerp als de leerpraktijk. Cursisten kunnen de hoofdzaken van een les – of zelfs complete delen hieruit – veel beter tot zich nemen en onthouden wanneer ze die hardop krijgen voorgelezen.

Luisteren is voor veel cursisten dus echt een verbetering, helemaal als je dyslectisch bent of een visuele beperking hebt. Maar dat is niet de enige doelgroep. Ook voor laaggeletterden of mensen die een tweede taal leren is voice van grote waarde. Drukbezette professionals of mensen die veel reizen, hebben er eveneens baat bij als ze content op een andere manier krijgen aangeboden dan alleen via geschreven tekst. Onderzoeken tonen aan hoe nuttig het is als we informatie op twee manieren tot ons nemen (bijvoorbeeld horen en lezen): we onthouden het beter en ons tekstbegrip neemt toe.

Maar als je eenmaal hebt besloten om audio in je e-learningmateriaal te verwerken, waar begin je dan?

Er zijn twee keuzes: stemacteurs inhuren also voice-over om je e-learning content in te spreken, of tekst-naar-spraaktechnologie gebruiken (text-to-speech, TTS). In de meeste gevallen werkt TTS het best, zoals onderzoek uitwijst.

Zijn stemacteurs te kostbaar voor je multimediale lesmateriaal? Dan zijn de levensechte TTS-stemmen van ReadSpeaker voor e-learnings dé oplossing. Neem contact op voor meer informatie.

Voice in e-learning: de uitdagingen van werken met stemacteurs

Van oudsher huurden bedrijven professionele stemacteurs in om hun content toegankelijk te maken door middel van spraak. Bepaald geen gemakkelijke opgave voor de ontwerpers van e-learnings, want alles moet kloppen en op elkaar zijn afgestemd: van de kosten tot en met de beschikbaarheid van de juiste stem. Denk aan geslacht, taal en accent.

Uiteindelijk is werken met een stemacteur door deze overwegingen en voorwaarden dus een forse investering, in tijd én geld. Jullie zouden dan ook echt niet het enige bedrijf zijn waarvoor dit te begrotelijk wordt, zeker als je ook nog eens meerdere stemmen in verschillende talen nodig hebt.

Sommige bedrijven pakken het anders aan door collega’s de voice-overs in te laten spreken. Maar ook daar kleven grote nadelen aan. Ze treden bijvoorbeeld uit dienst, worden ziek of nemen onverwacht vrij. Allemaal menselijke factoren waardoor medewerkers ineens niet beschikbaar zijn en daarmee roet in de planning van je geluidsopnamen kunnen gooien, of voor flinke vertragingen zorgen. Bovendien werkt deze selfservice-aanpak lang niet altijd, bijvoorbeeld doordat je personeel uit verschillende landen komt en je het lesmateriaal ook in meerdere talen wil aanbieden, maar niet voor alle talen een collega als voice-over kunt inzetten.

Voordelen van tekst-naar-spraak t.o.v. stemacteurs in e-learnings

Zoek je als bedrijf naar een optimaal evenwicht tussen kosten, kwaliteit, consistentie en gemak, dan is tekst-naar-spraak de slimste keuze voor e-learnings. Dankzij de synthetische stemmen bied je cursisten een vast en dus herkenbaar stemgeluid over de volle breedte van je lesmateriaal.

Met tekst-naar-spraak kun je op elk gewenst moment je audiomateriaal aanpassen, zonder daarvoor opnieuw een studio en/of stemacteur te hoeven boeken – met alle kosten van dien. En dankzij de recente ontwikkelingen in spraaksynthese, hoor je in de huidige digitale stemmen veel meer nuances, zoals verschillen in toonhoogte en tempo, nadruk op belangrijke woorden en rustmomenten. Deze vooruitgang zorgt ervoor dat het stemgeluid een natuurlijke emotionele lading krijgt. Hierdoor raak je als luisteraar nog meer betrokken; je krijgt het gevoel dat de tekst speciaal voor jou wordt voorgelezen.

Recent onderzoek ging dieper in op de vraag waarom veel ontwerpers van lesmateriaal voor e-learnings tekst-naar-spraak verkiezen boven stemacteurs. Er vielen meerdere redenen aan te wijzen, maar de rode draad was dat onderhoud en updates van e-learnings bij tekst-naar-spraak veel makkelijker zijn. Een van de ondervraagden, die voorheen met stemacteurs werkte, gaf aan:

“We ontdekten dat er veel extra tijd in de productie ging zitten. Soms moesten we de voice-overs opnieuw plannen of hele fragmenten overdoen vanwege één kleine correctie – bijvoorbeeld om het geluid consistent te houden. Dat kostte veel geld én tijd.”

Met tekst-naar-spraak houd je grip op de stemcreatie voor e-learning-materialen.

Voice-overs voor e-learnings maken

Voor e-learning is TTS om verschillende redenen onmisbaar. Je kunt:

  1. content in meerdere talen produceren voor een divers team;
  2. meerdere stemmen integreren voor een fractie van de kosten voor meerdere acteurs;
  3. scripts ontwikkelen om vervolgens met menselijke acteurs het eindproduct op te nemen;
  4. gestreamde audio of tekst-naar-spraak makkelijk integreren in mobiele applicaties, geïnstalleerde software-applicaties of hardware-apparaten. Zo kan iedereen met één druk op de voorleesknop naar jouw content luisteren.

De grote vraag is: werkt een TTS-voice-over even goed in e-learnings als een menselijke stemopname?

Misschien denk je van niet. Maar verschillende wetenschappers hebben hier onderzoek naar gedaan, en hun resultaten zullen je verbazen.

Onderzoek laat zien: moderne TTS-stemmen werken even goed in leerscenario’s als echte stemmen

In 2017 publiceerden Scotty D. Craig en Noah L. Schroeder het artikel “Reconsidering the voice effect when learning from a virtual human.

De onderzoekers gebruikten de klassieke voice-engine van Microsoft als nullijn. ‘Kate’ van NeoSpeech – nu onderdeel van ReadSpeaker – vertegenwoordigde de moderne voice-engine. Als hoogste ijkpunt gebruikten de onderzoekers een menselijke stem. Geanimeerde ‘virtuele mensen’ moesten vervolgens met elk van deze stemmen informatie presenteren aan een groep leerlingen.

Wat bleek? De moderne TTS-stem presteerde even goed of zelfs beter dan de menselijke.Een van de conclusies van het onderzoek maakt dat duidelijk:

“De moderne voice-engine produceerde aanzienlijk meer kennisoverdracht, zorgde voor efficiëntere trainingen, en was gelijkwaardig aan de menselijke stemacteur wat betreft leerprestatie en geloofwaardigheid. De oudere voice-engine bleef achter bij de moderne.

Dit resultaat spreekt eerdere aannames tegen over de achterblijvende effectiviteit van synthetische spraak in het onderwijs, vergeleken met menselijke. Onderzoekers noemen dat achterhaalde idee het ‘voice-effect’. Hier vertellen we wat dat betekent – en waarom geavanceerde TTS-technologie er verandering in heeft gebracht.

Een nieuw ‘voice effect’ in e-learning-omgevingen

Het ‘voice-effect’ of ‘voice-principe’ is een theorie van Richard E. Mayer, professor in de psychologie aan de Universiteit van Californië, Santa Barbara. Mayer schrijft erover in het Cambridge Handbook of Multimedia Learning:

“Met het voice-principe bedoelen we dat mensen woorden uit een multimedia-boodschap beter in zich opnemen als ze door een menselijke stem worden uitgesproken, dan als dat door een syntetische stem gebeurt.”

Mayer vond overtuigend bewijs voor deze conclusie. Maar vier van de studies die het voice-effect ondersteunden, zijn inmiddels meer dan tien jaar oud. Sindsdien heeft de voice-technologie zich snel ontwikkeld en is tekst-naar-spraaksoftware veel beter geworden.

Uit het vroege onderzoek van Mayer et al. – met name de publicatie “Multimedia learning: Role of the speakers’s voice” uit 2003 – blijkt inderdaad dat menselijke stemmen het beter doen dan synthetische. Maar de resultaten van een vergelijkbare studie in 2012 door Mayer en DaPra laten geen verschil meer zien. Bij die laatste studie gebruikten ze meer geavanceerde voice-technologie. Dat kan erop wijzen dat het voice-effect is verdwenen.

Mayer, de bedenker van de voice-effecttheorie, is niet de enige die sindsdien ontdekte dat hij misschien niet meer geldt.

We hebben Craig en Schroeders “Reconsidering the voice effect when learning from a virtual human” uit 2017 al genoemd. Een jaar later publiceerden zij hun vervolgstudie: “ Text-to-Speech Software and Learning: Investigating the Relevancy of the Voice Effect”.

Opnieuw vergeleken ze de prestaties van een geavanceerde TTS-stem met een oudere TTS-stem en een menselijke stem. En opnieuw vonden ze geen statistisch verschil in de “percepties, leeruitkomsten of cognitieve efficiëntie” tussen de menselijke en de moderne TTS-stem.

Dus concluderen Craig en Schroeder:

“Onze resultaten tonen aan dat voice-technologie inmiddels in staat lijkt om TTS-stemmen te genereren die geloofwaardig en effectief content voorlezen binnen multimedia-leeromgevingen.”

Op het moment van publiceren is deze conclusie bijna vijf jaar oud. In de tussentijd heeft de technologie zich opnieuw flink ontwikkeld: digitale stemmen zijn tegenwoordig nog realistischer dan degene die Craig en Schroeder hebben bestudeerd.

Deze uitkomsten hebben verregaande gevolgen voor opleidingsinstituten en ontwikkelaars van lesmateriaal en e-learnings. TTS-oplossingen gebruiken is kostenefficiënter en veel sneller dan echte stemmen opnemen. En als ze net zo goed – of zelfs beter – werken, is het duidelijk waar e-learningontwerpers voor zullen kiezen.

Lopende onderzoeken wijzen uit dat voice-engines goed genoeg werken om ze voor leerdoeleinden te gebruiken. Volgens deze inzichten bieden digitale stemmen een kans om betere leerresultaten te behalen. Dus: kies niet voor stemacteurs, maar voor TTS-stemmen als je e-learnings ontwerpt.

De digitale stemmen van ReadSpeaker in e-learning

De passie van ReadSpeaker is het ontwikkelen van hoogwaardige, natuurlijk klinkende TTS-stemmen. We zijn er trots op, dat onafhankelijke waarnemers uit de sector ze beoordelen als de meest accurate op de markt.

Om een stem te maken, wordt audio opgenomen met een stemacteur. Deze wordt vervolgens gesegmenteerd, dat wil zeggen verdeeld in kleine stukjes, van hele zinnen tot losse fonemen (klinker- of medeklinkerklanken). Aan de resulterende spraakdatabase wordt vervolgens een rijke annotatie toegevoegd met informatie over klemtoon, positie in het woord of de zin, enz. Deze annotaties worden geoptimaliseerd met behulp van o.a. Kunstmatige Intelligentie (AI) en Machine Learning en de taalkundige expertise van ons team van linguïsten. De resulterende database wordt door de voice-engine gebruikt om tekst om te zetten in spraak.

Onze TTS-oplossingen – met keuze uit ruim 50 talen en 200 stemmen, bieden je ook het volgende:

  • Standaard en klantspecifieke uitspraakwoordenboeken
  • Prosodie-aanpassingen en SSML-support
  • Doorlopende ondersteuning van onze eigen taalkundigen om de uitspraak te blijven verbeteren

Benieuwd wat ReadSpeaker kan betekenen voor je e-learning-programma? We bieden tekst-naar-spraakoplossingen om audiobestanden te creëren, webpagina’s voor te lezen of in je eigen applicaties te integreren. Voor ieder e-learningproject de juiste oplossing.

Neem vandaag nog contact met ons op om verder te praten over TTS-stemmen in e-learning, waarmee je cursisten helpt slagen.

Related articles
Gebruik vandaag nog tekst-naar-spraak

Maak je producten aantrekkelijker met onze spraakoplossingen.

Contact