Linee guida per un’IA vocale etica e responsabile: l’approccio di ReadSpeaker

Come si presenta l’intelligenza artificiale etica nel settore della tecnologia di sintesi vocale text-to-speech (TTS)? Scoprilo con le linee guida etiche di ReadSpeaker per la creazione di voci con l’intelligenza artificiale

21 Novembre 2024 by Gaea Vilage

Una donna con le cuffie usa un laptop dove vediamo una registrazione vocale.

Il dibattito sull’etica dell’intelligenza artificiale imperversa, ma alcuni aspetti sono indiscutibili, sia che si tratti di reti neurali che di disegni fatti a mano.

Non si dovrebbero prendere cose di proprietà di un’altra persona senza aver prima chiesto il permesso. Non si dovrebbe promettere una cosa e poi farne un’altra. Non si dovrebbe creare un prodotto che danneggia le persone.

Noi di ReadSpeaker siamo stati all’avanguardia nella tecnologia vocale con intelligenza artificiale fin dagli albori. Abbiamo preso in considerazione le implicazioni etiche della sintesi vocale in tutte le sue declinazioni. Di recente, abbiamo assistito all’impazienza del settore di sfruttare una tecnologia nuova e potente che ha iniziato a superare la sua coscienza.

In questo articolo vorremmo condividere il nostro punto di vista sull’etica dell’intelligenza artificiale nel settore della tecnologia di sintesi vocale text-to-speech (TTS).

Che cos’è davvero una voce realizzata con intelligenza artificiale

Innanzitutto, per essere certi di essere tutti sulla stessa lunghezza d’onda, facciamo chiarezza in merito ai tratti distintivi di una “voce realizzata con intelligenza artificiale” Ecco una definizione rapida:

Una voce realizzata con intelligenza artificiale è un modello sintetico del parlato umano costruito su reti neurali profonde.

Una rete neurale profonda (DNN) è un’architettura di apprendimento automatico basata sul cervello umano. Utilizza più livelli di unità di elaborazione interconnesse – i neuroni artificiali – per apprendere modelli complessi dai dati di addestramento.

Addestrando una rete neurale profonda su una voce umana vengono prodotti dei segnali audio che imitano quella voce. Chiamiamo il risultato “voce neurale” o “voce realizzata con intelligenza artificiale” – usando l’etichetta “intelligenza artificiale” perché le reti neurali profonde sono in realtà una forma di intelligenza artificiale.

L’aspetto importante è che dietro ogni voce dell’intelligenza artificiale c’è una persona reale. Le voci sintetiche sono una forma di proprietà intellettuale decisamente personale. Purtroppo, nella grande corsa all’oro dell’intelligenza artificiale, non tutti i fornitori di servizi di tecnologia di sintesi vocale text-to-speech rispettano questo aspetto.

Questa discrepanza potrebbe essere dovuta a un modello di business comune nel settore dell’intelligenza artificiale: rilasciare su Internet una voce realizzata con intelligenza artificiale – come fanno i generatori self-service di voci realizzate con intelligenza artificiale – non protegge i diritti dei doppiatori (e di altre parti interessate, come spiegheremo più avanti).

Generatori vocali potenziati da intelligenza artificiale B2B e B2C e diritti dei doppiatori

I fornitori di servizi self-service di voci realizzate con intelligenza artificiale operano su un modello business-to-consumer (B2C). Vendono a chiunque voci realizzate con intelligenza artificiale. Noi di ReadSpeaker operiamo solo nel settore business-to-business (B2B). Lavoriamo con altre aziende, non con i singoli consumatori.

Questo modello B2B ci consente di proteggere i doppiatori come i fornitori B2C non sono in grado di fare. I nostri accordi contrattuali con i doppiatori e gli utenti dell’intelligenza artificiale garantiscono che la somiglianza vocale possa apparire solo in casi di utilizzo limitati e approvati. Nei paragrafi che seguono esamineremo questa idea.

Usi non etici della sintesi vocale realizzata con intelligenza artificiale

Cosa determina se una voce realizzata con intelligenza artificiale è “etica” o “non etica”? Due elementi: Il modo in cui viene costruita e il modo in cui viene utilizzata. Chiamiamo queste le pratiche a monte e a valle che diventano punti di crisi sul piano etico.

Le violazioni etiche a monte riguardano la fase di raccolta dei dati.

Ricorda: le voci neurali si presentano all’ascolto come le registrazioni vocali fornite per la fase di addestramento. La fonte di queste registrazioni è molto importante.

In un mondo di podcast e audiolibri, i dati in circolazione sono moltissimi. È possibile recuperare i dati audio da qualsiasi fonte, creando una voce realizzata con intelligenza artificiale senza che l’interlocutore ne sia a conoscenza o abbia fornito il proprio consenso. È chiaramente un’operazione immorale, ma la gente lo fa.

Per capire se un fornitore di servizi di tecnologia di sintesi vocale text-to-speech utilizza l’intelligenza artificiale in modo etico, è opportuno iniziare con una semplice domanda: “Dove hai recuperato i tuoi dati?”

C’è un secondo modo in cui le aziende che operano nel campo della tecnologia di sintesi vocale text-to-speech creano le premesse per una raccolta di dati non etica e persino illegale. I generatori vocali B2C self-service potenziati da intelligenza artificiale, oppure i servizi di clonazione vocale, permettono agli utenti di creare una voce sintetica basata sulle proprie registrazioni audio.

Questi strumenti consentono a chiunque di clonare una voce, a volte con pochi secondi di dati audio. La maggior parte delle nostre voci è presente ovunque sui social media. Queste voci, inoltre, si trovano su un numero imprecisato di server lontani, come conseguenza degli assistenti virtuali, degli altoparlanti smart e delle app a comando vocale che possono registrare le nostre interazioni. In altre parole, con questi strumenti siamo tutti vulnerabili alla clonazione vocale predatoria.

Le voci realizzate con intelligenza artificiale “fatte in casa” non avranno mai una qualità audio straordinaria, in quanto ciò richiederebbe molti più dati, ma sono abbastanza valide per creare dei deepfake politici e per attuare delle truffe di impersonificazione.

Analizzeremo meglio questi argomenti nel nostro articolo sull’etica della clonazione vocale. Per ora, il punto chiave è che la creazione di una voce realizzata con intelligenza artificiale avvalendosi di dati di addestramento non autorizzati è quasi sempre un’operazione sbagliata.

Le violazioni etiche a valle riguardano l’uso non autorizzato di una voce sintetica.

Ci sono tre attori principali coinvolti nella fornitura di servizi di sintesi vocale text-to-speech neurale:

Doppiatore: La voce dietro ai dati usati per l’addestramento
Il creatore della voce realizzata con intelligenza artificiale: Un fornitore di servizi di sintesi vocale text-to-speech come ReadSpeaker
L’utente del servizio di sintesi vocale text-to-speech: L’organizzazione che consegna il parlato sintetico al suo pubblico

Tutte e tre queste parti interessate devono concordare circa gli usi appropriati di una voce realizzata con intelligenza artificiale. La distribuzione di una voce realizzata con intelligenza artificiale al di fuori di questi scenari approvati – l'”uso non autorizzato” che continuiamo a menzionare – può creare gravi danni. Questi danni possono avere implicazioni diverse per ciascuna delle parti coinvolte.

In che modo l’uso non autorizzato di voci realizzate con intelligenza artificiale danneggia…

1. Il doppiatore

I doppiatori forniscono i dati di addestramento per la maggior parte delle voci di sintesi vocale text-to-speech commerciali. Se un creatore di voce artificiale clona la voce di un doppiatore e non ne controlla rigorosamente la distribuzione, l’attore può essere rovinato. Dopo tutto, perché assumere una persona che è possibile emulare gratuitamente?

“La mia voce è ciò che sono, ma è anche il mio sostentamento”, ci ha detto un doppiatore in attività. “Se mi prendete la voce, prendete anche il mio guadagno. Se qualcuno mi ruba la voce, è finita; posso chiudere i battenti.”

“Se mi prendete la voce, prendete anche il mio guadagno”.

Senza una distribuzione controllata, i doppiatori del settore text-to-speech rischiano di essere utilizzati in contenuti che non approvano, dai video per adulti fino ai discorsi che incitano all’odio. Tutto questo può comportare danni morali e perdita di guadagno. Da qui si capisce quanto i doppiatori siano vulnerabili all’uso non autorizzato della tecnologia di sintesi vocale text-to-speech.

2. I creatori di voci realizzate con intelligenza artificiale

Anche i creatori etici di voci realizzate con intelligenza artificiale, tra cui ReadSpeaker, vengono danneggiati dalla proliferazione incontrollata delle voci realizzate con intelligenza artificiale. Per distribuire le voci realizzate con intelligenza artificiale in modo etico occorrono tempo, denaro e molta vigilanza.

Le aziende che non rispettano le regole ottengono un vantaggio competitivo sleale. Inoltre, danneggiano i doppiatori oltre che, potenzialmente, gli stessi clienti a cui vendono il servizio.

3. Gli utenti dei servizi di sintesi vocale text-to-speech

Questa è l’organizzazione che fornisce ai consumatori la voce realizzata con intelligenza artificiale. Le aziende potrebbero utilizzare una voce realizzata con intelligenza artificiale per migliorare l’accessibilità digitale, produrre contenuti di e-learning, annunciare un ritardo su un treno o ancora alimentare un assistente virtuale (giusto per citare alcuni esempi).

Non importa come la si usa: la voce realizzata con intelligenza artificiale diventa parte dell’identità del marchio. Immagina il danno se quella stessa voce comparisse in contenuti illeciti o illegali. Se il tuo fornitore ha commesso violazioni etiche a monte del processo potresti anche essere soggetto a rischi legali.

Queste denunce etiche, sia a monte che a valle, non sono speculazioni. Ci sono persone che agiscono in modo non etico su entrambi i fronti.

Noi di ReadSpeaker operiamo in modo diverso. Mettiamo l’etica al centro di ogni nostra decisione.

Ecco come creiamo voci con l’intelligenza artificiale proteggendo i nostri stakeholder. Anche agli altri operatori del settore suggeriamo di procedere in modo analogo.

L’obiettivo di ReadSpeaker è quello di fornire le voci realizzate con tecnologia di sintesi vocale text-to-speech più realistiche disponibili, impedendo al contempo qualsiasi forma di abuso o danno al nostro lavoro.

Sulla base delle pratiche che abbiamo avuto modo di sviluppare in oltre 25 anni di attività nel settore – e servendo allo stadio attuale oltre 12.000 clienti in tutto il mondo – ecco le nostre linee guida etiche per i fornitori di servizi vocali con intelligenza artificiale.

Le linee guida etiche di ReadSpeaker per i fornitori di voci realizzate con intelligenza artificiale.

1. Generare i propri dati di addestramento.

Quando si addestrano i modelli vocali dell’intelligenza artificiale, non utilizzare mai registrazioni vocali senza l’autorizzazione del doppiatore e/o del suo rappresentante legale e del titolare dei diritti di proprietà intellettuale. Potrebbe inoltre essere necessaria l’approvazione di altri creatori, quali ad esempio ingegneri audio e coach vocali. Non recuperare i dati da nessuna fonte.

La pratica migliore, sia per la qualità che per l’etica, è quella di generare i propri dati di addestramento creando registrazioni vocali originali. In questo modo tutti i collaboratori hanno la possibilità di concordare gli usi approvati per la voce realizzata con intelligenza artificiale in fase di creazione. Questo passaggio è essenziale per le protezioni a valle, come vedremo in seguito.

2. Firmare sempre dei contratti con i doppiatori.

I contratti mantengono chiare le aspettative di tutte le parti interessate. Sono di fondamentale importanza per proteggere i doppiatori. Senza doppiatore, non può esistere una voce realizzata con intelligenza artificiale, quindi questa regola ha una dimensione pratica ed etica al tempo stesso.

Il contratto con il doppiatore può e deve includere clausole di esclusione per i conflitti di interesse. Se un doppiatore lavora molto in radio, ad esempio, potrebbe non volere che la versione sintetica della sua voce venga utilizzata negli spot radiofonici. Suggeriamo di utilizzare questo contratto a monte per garantire le protezioni a valle.

3. Firmare sempre dei contratti con gli utenti delle voci realizzate con intelligenza artificiale.

Un contratto con il doppiatore definisce gli usi approvati di una voce realizzata con intelligenza artificiale. Un contratto con l’utente di quella voce realizzata con intelligenza artificiale – il cliente del fornitore dei servizi di sintesi vocale text-to-speech – rende effettivi gli usi approvati.

Anche l’azienda che utilizza la voce realizzata con intelligenza artificiale merita di essere tutelata. Le aziende, ad esempio, non vogliono che una risorsa con il proprio marchio appaia altrove. Questo contratto a valle mette queste regole nero su bianco, evitando danni a tutte le parti coinvolte.

I contratti, sia quelli a monte che quelli a valle, contribuiscono a informare la pratica della nostra prossima linea guida.

4. Mantenere il controllo sull’implementazione della voce realizzata con intelligenza artificiale.

Il fornitore dei servizi di sintesi vocale text-to-speech ha la responsabilità di limitare le voci prodotte con intelligenza artificiale ai canali approvati. Il tuo ruolo non si esaurisce con la creazione della voce; dovrai anche controllare i sistemi con cui le tue voci vengono diffuse.

Questo è l’unico modo per tener fede all’impegno preso ai sensi del contratto. Se la tua voce finisce nelle mani sbagliate, non potrai impedire che venga utilizzata in contesti non autorizzati.

Integrare queste protezioni nella propria tecnologia. Per noi di ReadSpeaker è tecnologicamente impossibile utilizzare una delle nostre voci per una persona che non abbia sottoscritto un contratto con noi.

Raccomandiamo questa pratica a tutti i fornitori di voci realizzate con intelligenza artificiale, a tutela dei doppiatori, degli utenti dei servizi di sintesi vocale text-to-speech e di tutta la società.

5. Costruire un modello di business intorno al comportamento etico, non il contrario.

Alcuni modelli di business nello spazio vocale dell’intelligenza artificiale rendono difficile seguire le quattro linee guida precedenti. Se non riesci a proteggere i tuoi fornitori e i tuoi clienti, tuttavia, è meglio ripensare al tuo sistema prima del lancio. E questa regola vale per qualsiasi settore.

Non è sufficiente offrire avvertimenti o termini di servizio, chiedendo semplicemente ai consumatori di non abusare di un generatore vocale potenziato da intelligenza artificiale. La protezione dagli abusi deve essere integrata nella tecnologia stessa. Per le piattaforme vocali self-service, ciò potrebbe comportare filigrane digitali, un sistema che rifiuta automaticamente le voci “famose” e canali per la segnalazione delle violazioni.

La pratica migliore, tuttavia, è quella di evitare l’accesso aperto ai generatori vocali basati su intelligenza artificiale. In caso contrario, non c’è modo di proteggere i propri stakeholder, compresa la società in generale.

Intelligenza artificiale etica a ReadSpeaker: In che modo la sicurezza e la qualità si sostengono a vicenda

Queste linee guida si basano sul modo in cui operiamo a ReadSpeaker. Da oltre due decenni siamo leader nel settore della tecnologia di sintesi vocale e siamo stati tra i primi a fornire voci commerciali realizzate con l’intelligenza artificiale.

Fin dall’inizio abbiamo applicato alla sintesi vocale con intelligenza artificiale le nostre procedure basate su contratti e su approcci etici. Tutto questo ci ha reso un nome affidabile, non solo tra i nostri clienti, ma anche nella comunità dei doppiatori.

Siamo orgogliosi di essere conosciuti come un’azienda che offre servizi di sintesi vocale text-to-speech e tratta i doppiatori in modo equo. Questa reputazione ci ha consentito di seguire progetti importanti ed entusiasmanti. Nel 2022, ad esempio, abbiamo lavorato con l’attore Giancarlo Esposito per sviluppare l’esclusiva voce realizzata con intelligenza artificiale per l’assistente vocale di Sonos, Sonos Voice Control.

E questo è solo un esempio di come il business etico si traduce in buoni affari per noi di ReadSpeaker.

La scelta di attenersi alle nostre linee guida etiche porta anche a voci realizzate con l’intelligenza artificiale di qualità superiore. Creiamo dati di addestramento originali per proteggere i diritti delle parti interessate – è vero. Ma lo facciamo anche perché questa scelta porta a un prodotto di qualità migliore.

Ogni voce di sintesi vocale text-to-speech neurale targata ReadSpeaker inizia con un processo di registrazione vocale estremamente complesso, che comprende:

Script di sintesi vocale text-to-speech personalizzati
Doppiatori di eccellente qualità
Coaching vocale esperto
Studi professionali
Editing accurato

Il nostro processo non è fra i più rapidi, tuttavia ci aiuta a tutelare i doppiatori. Inoltre, produce le migliori voci realizzate con intelligenza artificiale disponibili sul mercato. A ReadSpeaker, etica e qualità vanno di pari passo.

Invitiamo tutti i fornitori di servizi di sintesi vocale text-to-speech ad adottare linee guida etiche in materia di intelligenza artificiale simili alle nostre, in modo da poterne trarre gli stessi benefici.

Accessibilità

Un grande schermo di computer su una scrivania

Accessibility overlay: Cosa devono sapere i proprietari dei siti 20 Maggio 2024 by Amy Foxwell

Gli accessibility overlay hanno ricevuto molte recensioni negative, in gran parte meritate. E allora cosa puoi fare per migliorare l’accessibilità web? Scoprilo qui!

ReadSpeaker News

ReadSpeaker collabora con AID Italia per supportare la comunità dislessica italiana con il Text-to-Speech 25 Marzo 2025 by Amy Foxwell

12 marzo 2025 – Milano, Italia – ReadSpeaker è orgogliosa di annunciare un accordo di convenzione esclusiva con AID Italia, che renderà ReadSpeaker TextAid facilmente…

Leggi tutto l’articolo

Text-to-speech

Voci di sintesi vocale custom: 5 punti chiave per i brand manager 3 Gennaio 2025 by Gaea Vilage

Il clamore riguardo alle voci personalizzate realizzate con tecnologia di sintesi vocale text-to-speech ti lascia perplesso? Queste cinque riflessioni fanno un po’ di chiarezza per aiutarti a ottenere la voce di sintesi vocale text-to-speech di cui hai bisogno.