Van podcasts tot het voorlezen van artikels of nieuwsbulletins, de toepassingen van gekloonde stemmen zijn er. De technologie maakt het mogelijk, maar mag het zomaar? Een stand van zaken in de Lage Landen, de toepasselijke regelgeving, opportuniteiten en risico’s.
De Lage Landen
'NRC zet een nieuwe stap met geautomatiseerde stemmen. Onze journalistiek wordt ingesproken door stemmen die gebaseerd zijn op het stemgeluid van twee van onze redacteuren.' Die twee NRC-redacteuren zijn Mischa Spel en Egbert Kalse. In Vlaanderen kondigde Mediafin aan het audioaanbod voor De Tijd uit te breiden. Het maakt daarbij gebruik van twee vaste AI-gegenereerde stemmen. Terug in Nederland liet RTV Drenthe na de zomer weten dat 'Bart Neisman' in dienst komt. Bart Neisman, dat is een AI-stem. Hij wordt ingeschakeld om nieuwsbulletins in te lezen in het weekend als er geen lezende redacteur op de redactie aanwezig is.
Is gebruik van of experiment met stemklonen in de nieuwsproductie dan een uitgemaakte zaak? Voor de een kan het – gecontroleerd –, voor de ander kan het niet. Olle Zachrison, hoofd AI en nieuwsstrategie bij de nationale radiozender van Zweden, in een Reuters-podcast: 'GenAI heeft een ondersteunende functie, de mens cureert en superviseert. Dat betekent ook: geen gekloonde stemmen.' En ook: 'Als het gaat om nieuwsberichtgeving zijn we strikt.’
Gekloonde of synthetische stemmen
Synthetische of geautomatiseerde stemmen kunnen gekloond of generiek zijn. Karel Dierckx, chef audio bij De Tijd, verduidelijkt: 'Het verschil tussen gekloonde stemmen en generieke stemmen is dat een gekloonde stem gebaseerd is op de opname van 1 stem, terwijl generieke stemmen puur artificieel gemaakt zijn, op basis van een gigantische hoeveelheid datasets. LLM’s is de technologie achter het taalmodel, waarmee synthetische stemmen getraind worden.'
Mediafin werkt sinds 15 oktober met gekloonde stemmen, een Nederlandstalige voor De Tijd en een Franstalige voor L’Echo. Ze zijn gebaseerd op het stemgeluid van twee niet nader genoemde stemactrices. Door de stemklonen kunnen lezers dagelijks drie nieuwsartikelen beluisteren via de nieuwe text-to-speech-functie: 'Luistertijd' voor De Tijd en 'Articles à écouter' voor L’Echo. Het nieuwsmanagement selecteert de stukken die dan vervolgens gepubliceerd worden in een stream op de app. In principe komen alle nieuwsartikelen in aanmerking. Het moet om een goeie mix gaan waar de eigenheid van De Tijd en L’Echo uit blijkt.
Ook niet elk artikel – denk aan een artikel met veel cijfers – leent zich ertoe om voorgelezen te worden. Aangezien het om dezelfde copy gaat – in print/online en gesproken – bepaalt het narratief de selectie. Volgens een artikel van het Stimuleringsfonds voor de Journalistiek (SFJ) werken vooral essays en andere verhalende stukken. Wat de stemkloon aangaat, zijn de ordewoorden voor Mediafin: aangenaam om naar te luisteren, geen bekende stem, newsy feel, vrouw.
Bij Mediahuis België liep sinds begin 2024 een pilot met Alexander Lippeveld, presentator van DS Vandaag, de dagelijkse nieuwspodcast van De Standaard. Besliste men oorspronkelijk te zullen werken met zijn AI-kloon, dan heeft men het nu over een andere boeg gegooid. Net als bij Mediafin zal ook Mediahuis België nu werken met twee onbekende stemmen. De AI-kloon was bedoeld om, voornamelijk, automatisch artikels voor te lezen op standaard.be.
Mediahuis lijkt te mikken op zoveel mogelijk artikels. Het nieuwe redactieplatform dat in het voorjaar 2025 wordt opgeleverd, maakt dat technisch ook mogelijk. De beslechting van de kwestie in het voordeel van onbekende stemmen heeft ongetwijfeld voordelen. Voor onbekende stemmen gelden immers niet de red flags (denk bijvoorbeeld aan reclame) die voor journalisten wel gelden. Ook laten persoonlijke uitingen als opinies of recensies zich makkelijker voorlezen door onbekende synthetische stemmen.
Correcte vergoeding
Voice cloning kan maar mits geïnformeerde toestemming en een correcte vergoeding. Karel Dierckx: 'De vergoeding heeft twee luiken. Het eerste dekt de opnametijd in de studio, de prestatie zeg maar om het bronmateriaal te maken. Het tweede is een licentievergoeding voor het gebruik in de tijd.
Dat tweede bedrag werd gebenchmarkt met twee internationale uitgevers, Le Monde en The Financial Times.' Een bedrag kon Dierckx niet kwijt. Een feit is dat voorgelezen artikelen meerwaarde genereren. Ze maken content toegankelijker (ook letterlijk voor lezers met een visuele beperking) en het wordt mogelijk om een band op te bouwen met een journalist.
Follow the Money noemt nog een derde reden in het SVJ-artikel: 'Luisteren is laagdrempeliger en kan tijdens andere bezigheden. Wie het luisteren in zijn routine krijgt, zal minder snel zijn abonnement opzeggen.' Audio is belangrijk, bevestigt ook Mediafin. Uit recent podcastonderzoek blijkt dat lezers van De Tijd en L’Echo 32% intensiever luisteren naar podcasts dan de gemiddelde Belg. Dat betekent dat bijna 3 op de 10 lezers minstens vijf dagen per week naar podcasts luisteren.
Transparantie
Geïnformeerde toestemming staat of valt met transparantie. Worden er enkel nieuwsartikelen voorgelezen of ook nieuwsbulletins? Wordt mijn stemkloon ingezet voor hyperindividuele uitingen als columns? Doe ik mezelf concurrentie aan met mijn synthetische stem? Wordt mijn stem ook gebruikt voor reclamedoeleinden? Kortom: waarvoor geef ik precies toestemming?
Elk van die antwoorden heeft impact op je vermogens-, morele en persoonlijkheidsrechten (recht op eerbiediging van privé-, gezins- en familieleven enzovoort). Contractuele omschrijvingen als 'het ad hoc omzetten van geschreven content in synthetische spraaktoepassingen' of 'uitrol van text-to-speech-toepassingen' zijn weinig verhelderend. Ze zijn veel te vaag en dus potentieel te ruim en maken het onmogelijk om er geïnformeerd 'ja' of 'nee' op te zeggen of om er een vergoeding op te plakken. Alle nieuwsartikelen versus een uitgelezen selectie: het eerste levert allicht een zwaardere geldzak op. Ook de duur van de licentie is uiteraard bepalend.
Internationale AI-wetgeving
Is die transparantie-eis ook wettelijk verankerd? Deels wel. Zo verlangt de Europese AI-wet dat AI-aanbieders transparant zijn over hun trainingsdata, auteursrechtelijk beschermde content incluis. Zonder die info tasten rechthebbenden in het duister, luidt het. Daarnaast is er ook het AI-kaderverdrag van de Raad van Europa. Het kaderverdrag is het eerste internationale, juridisch bindende verdrag dat de transparantie en veiligheid van AI-systemen moet waarborgen. Het hamert op beginselen als transparantie, menselijke waardigheid, autonomie en privacy. De daadwerkelijke impact van het verdrag hangt uiteraard af van nationale toepassing.
Innovatie versus bescherming van auteurs
Aanvullend op het internationale kader zijn er ook enkele nationale initiatieven die het vermelden waard zijn. Zo nam Tennessee als eerste staat in de VS wetgeving aan om muzikanten te beschermen tegen ongewenste AI-cloning van hun stem. Zonder toestemming, zo klinkt het, kan iemands stem niet gebruikt worden. Zelfde vibe ook in Californië dat inzet op strengere eisen voor het gebruik van digitale replica’s en watermerken. Meer dan elders is het daar schipperen tussen innovatie en auteursrechtelijke bescherming door de botsende belangen van Silicon Valley en Hollywood.
Niet-AI-gerelateerde wetgeving
De in het geding zijnde belangen worden ook beschermd door andere, niet-AI-gerelateerde wetgeving. Denk bijvoorbeeld aan het auteursrecht (of ander intellectueel eigendomsrecht), de privacyregelgeving (Europese verordening AVG en nationale uitvoeringswet) of bepalingen in het strafrecht zoals laster en eerroof. Alles hangt af van de case in kwestie en de feiten die eraan ten grondslag liggen.
Risico’s
(Voice-only) deep fakes, digital doubles, replicas, clones. Het eerste risico dat ons te binnen schiet is: wat als een derde – niet het mediabedrijf – met je stem aan de haal gaat? Wat zijn mogelijke persoonlijke en professionele gevolgen? En bij uitbreiding: kan de geloofwaardigheid van de journalistiek in het gedrang komen? Kan je je als auteur of mediabedrijf überhaupt wapenen tegen misbruik? Nick Gaubitch, directeur onderzoek bij Pindrop, een cyberbeveiligingsbedrijf dat antifraude-spraaksoftware ontwerpt: 'Er zijn nog heel wat open vragen, maar de bottom line is dat je moet stilstaan bij alles wat je post online, of het nu audio is of iets anders. Het kan allemaal op de een of andere manier gebruikt of misbruikt worden.'
Een ander veelvuldig gehoord risico gaat over werkgelegenheid. Nu haast men zich te zeggen dat het om een aanvullende functionaliteit gaat. De text-to-speech komt bovenop andere audio als podcast, klinkt het. De technologie maakt kwalitatieve audioartikels nu gewoon mogelijk. En wie weet wordt zo ook een nieuwe publiek – jongeren bijvoorbeeld – aangesproken. Dat mag allemaal waar zijn, maar het is zonneklaar dat de technologische omwenteling de arbeidsmarkt eveneens flink kan opschudden.
Charlotte Michils