Ethische KI bei ReadSpeaker: Best Practices für die KI-Sprachindustrie

Wie sieht ethische KI in der heutigen Text-to-Speech (TTS)-Branche aus? Finden Sie es mit den ethischen Richtlinien von ReadSpeaker für die Erstellung von KI-Stimmen heeraus.

November 21, 2024 by Gaea Vilage

Eine Frau hört über Kopfhörer am Computer zu.

Die Debatte über die Ethik der KI geht weiter, aber einige Dinge sind unumstritten, egal ob es sich um neuronale Netzwerke oder Fingerfarben handelt.

Man sollte nicht ohne Erlaubnis die Sachen eines anderen nehmen. Man sollte nicht das eine versprechen und dann etwas anderes tun. Man sollte kein Produkt herstellen, das Menschen schadet.

Bei ReadSpeaker standen wir von Anfang an an der Spitze der KI-Sprachtechnologie. Wir haben uns mit den ethischen Implikationen der Sprachsynthese in all ihren Facetten beschäftigt. In letzter Zeit haben wir beobachtet, wie der Eifer der Industrie, eine leistungsstarke neue Technologie zu nutzen, ihr Gewissen zu überfordern begann.

In diesem Artikel möchten wir unsere Sichtweise zur KI-Ethik im Bereich Text-to-Speech (TTS) teilen.

Was eine KI-Stimme wirklich ist

Um sicherzustellen, dass wir alle auf demselben Stand sind, sollten wir zunächst klären, was eine KI-Stimme zu einer „KI-Stimme“ macht. Hier eine kurze Definition:

Eine KI-Stimme ist ein synthetisches Modell menschlicher Sprache, das auf Deep Neural Networks basiert.

Ein Deep Neural Network (DNN) ist eine Architektur des maschinellen Lernens, die auf dem menschlichen Gehirn basiert. Es verwendet mehrere Schichten miteinander verbundener Verarbeitungseinheiten – künstliche Neuronen – um aus Trainingsdaten komplexe Muster zu lernen.

Wenn Sie das richtige DNN auf eine menschliche Stimme trainieren, erzeugt es Audiosignale, die diese Stimme nachahmen. Wir nennen das Ergebnis eine neuronale Stimme oder eine KI-Stimme – „KI“, weil DNNs eine Form der Künstlichen Intelligenz sind.

Das Wichtigste dabei ist, dass hinter jeder KI-Stimme ein echter Mensch steht. Synthetische Stimmen sind eine ganz persönliche Form des geistigen Eigentums. Leider berücksichtigt nicht jeder TTS-Anbieter im großen KI-Goldrausch diese Tatsache.

Diese Diskrepanz könnte auf ein verbreitetes Geschäftsmodell in der KI-Sprachindustrie zurückzuführen sein: Die Bereitstellung von KI-Stimmen im offenen Internet, wie es die KI-Stimmengeneratoren im Selbstbedienungsmodus tun, schützt nicht die Rechte der Sprecher (und anderer Beteiligter, wie wir noch erklären werden).

B2B- vs. B2C-KI-Sprachgeneratoren und die Rechte von Sprechern

Anbieter von selbstbedienbaren KI-Sprachdiensten arbeiten nach einem Business-to-Consumer-Modell (B2C). Sie verkaufen KI-Stimmen an jeden. Bei ReadSpeaker sind wir ausschließlich im Business-to-Business-Geschäft (B2B) tätig. Wir arbeiten mit anderen Unternehmen und nicht mit einzelnen Verbrauchern.

Dieses B2B-Modell ermöglicht uns, Sprecher auf eine Weise zu schützen, wie es B2C-Anbieter nicht können. Unsere vertraglichen Vereinbarungen mit den Sprechern und den Nutzern der KI-Stimme stellen sicher, dass ein stimmliches Abbild nur in engen, genehmigten Anwendungsfällen erscheinen kann. Wir werden diese Idee in den folgenden Abschnitten näher erläutern.

Unethische Anwendungen der KI-Stimmensynthese

Was bestimmt, ob eine KI-Stimme „ethisch“ oder „unethisch“ ist? Zwei Dinge: Wie sie erstellt wird und wie sie genutzt wird. Nennen wir sie die vor- und nachgelagerten Praktiken, die zu ethischen Krisenpunkten werden.

Vorgelagerte ethische Verstöße beziehen sich auf die Datenerhebung.

Denken Sie daran, dass neuronale Stimmen wie die Sprachaufnahmen klingen, die Sie ihnen zum Training geben. Es ist von großer Bedeutung, woher Sie diese Aufnahmen erhalten.

In einer Welt von Podcasts und Hörbüchern gibt es Daten in Hülle und Fülle. Es ist möglich, Audiodaten aus jeder beliebigen Quelle zu sammeln und eine KI-Stimme ohne das Wissen oder die Zustimmung des Sprechers zu erzeugen. Das ist eindeutig unethisch aber Leute tun es.

Um festzustellen, ob ein TTS-Anbieter KI ethisch korrekt einsetzt, sollten Sie mit einer einfachen Frage beginnen: „Wo haben Sie die Daten her?“

Es gibt noch eine zweite Möglichkeit, wie TTS-Unternehmen die Voraussetzungen für eine unethische und sogar illegale Datenerfassung schaffen. B2C-Selbstbedienungs-KI-Stimmengeneratoren oder Dienste zum Klonen von Stimmen ermöglichen Nutzern, eine synthetische Stimme basierend auf ihren eigenen Audioaufnahmen zu erstellen.

Diese Tools ermöglichen jedem, eine Stimme zu klonen, manchmal mit nur wenigen Sekunden einer Audioaufnahme. Die meisten unserer Stimmen sind überall in den sozialen Medien. Sie befinden sich auch auf einer unbestimmten Anzahl von entfernten Servern, als Folge von virtuellen Assistenten, intelligenten Lautsprechern und sprachgesteuerten Apps, die unsere Interaktionen aufzeichnen können. Kurz gesagt, sind wir alle anfällig für das räuberische Klonen von Stimmen, wenn diese Tools frei verfügbar sind.

Schnelle, selbstgemachte KI-Stimmen werden nie großartig klingen (dazu braucht man viel mehr Daten). Aber sie sind gut genug für politische Deepfakes und betrügerische Imitationen.

Wir werden diese Themen in unserem Artikel über die Ethik des Stimmenklonens näher beleuchten. Der wichtigste Punkt ist zunächst, dass die Erstellung einer KI-Stimme mit nicht autorisierten Trainingsdaten fast immer falsch ist.

Nachgelagerte ethische Verstöße betreffen die unbefugte Verwendung einer synthetischen Stimme.

Es gibt drei Hauptakteure bei der Bereitstellung von neuronalen TTS:

Sprecher*innen: Der oder die Sprecher*in hinter den Trainingsdaten
Der KI-Stimmenersteller: Ein TTS-Anbieter wie ReadSpeaker
Der TTS-Nutzer: Die Organisation, die die synthetische Sprache an ihr Publikum liefert

Alle drei Beteiligten sollten sich über den angemessenen Einsatz einer KI-Stimme einig sein. Der Einsatz einer KI-Stimme außerhalb dieser genehmigten Szenarien – die „unbefugte Nutzung“, von der wir immer wieder sprechen – kann ernsthafte Schäden verursachen. Dieser Schaden trifft jeden Beteiligten unterschiedlich.

Wie die unbefugte Nutzung von KI-Stimmen schadet…

1. Sprecher*innen

Die Trainingsdaten für die meisten kommerziellen TTS-Stimmen stammen von Sprechern und Sprecherinnen. Wenn ein KI-Stimmenersteller die Stimme eines Schauspielers klont und die Verwendung nicht genau kontrolliert, kann dieser Schauspieler ruiniert werden. Warum sollte man jemanden einstellen, den man umsonst nachahmen kann?

„Meine Stimme ist das, was ich bin, aber sie ist auch mein Lebensunterhalt“, sagte uns ein berufstätiger Synchronsprecher. „Wenn Sie sie mir nehmen, nehmen Sie mein Einkommen. Wenn mir jemand die Stimme stiehlt, war‘s das; ich bin erledigt.“

„Wenn Sie meine Stimme nehmen, nehmen Sie mein Einkommen.”

Ohne kontrollierte Nutzung laufen die Sprecher in der TTS-Branche außerdem Gefahr, dass ihre Stimmen in Inhalten verwendet werden, die sie nicht gutheißen, von Videos für Erwachsene bis hin zu Hassreden. Das kann zu moralischen Schäden und Einkommensverlusten führen. Sie erkennen, wie anfällig Sprecher für die unbefugte Verwendung von TTS sind.

2. KI-Stimmenersteller

Ethische Ersteller von KI-Stimmen – einschließlich ReadSpeaker—werden auch durch die unkontrollierte Verbreitung von KI-Stimmen geschädigt. Es braucht Zeit, Geld und viel Wachsamkeit, um KI-Stimmen ethisch korrekt einzusetzen.

Unternehmen, die sich nicht an die Regeln halten, verschaffen sich einen unfairen Wettbewerbsvorteil und schaden gleichzeitig dem Sprecher und damit möglicherweise auch den Kunden, an die sie verkaufen.

3. TTS-Nutzer

Dies ist die Organisation, die den Verbrauchern die KI-Stimme liefert. Unternehmen könnten eine KI-Stimme einsetzen, um die digitale Zugänglichkeit zu verbessern, E-Learning-Inhalte zu produzieren, eine Verspätung im Zug anzukündigen oder einen virtuellen Assistenten zu steuern (um nur einige Beispiele zu nennen).

Egal wie Sie sie verwenden; die KI-Stimme wird Teil Ihrer Markenidentität. Stellen Sie sich den Schaden vor, der entsteht, wenn genau diese Stimme in unerlaubten oder illegalen Inhalten auftaucht. Sie können sogar rechtlich belangt werden, wenn Ihr Anbieter auch im Vorfeld ethische Verstöße begangen hat.

Diese ethischen Beschwerden, sowohl im vor- als auch im nachgelagerten Bereich, sind keine Spekulation. Es gibt Menschen, die an beiden Fronten unethisch handeln.

Bei ReadSpeaker arbeiten wir anders. Bei uns steht die Ethik im Mittelpunkt jeder Entscheidung, die wir treffen.

So schaffen wir KI-Stimmen und schützen gleichzeitig unsere Beteiligten und wie wir anderen in der Branche empfehlen, dasselbe zu tun.

Unser Ziel bei ReadSpeaker ist es, die lebensechtesten TTS-Stimmen zu liefern, die es gibt und gleichzeitig jede Form von Missbrauch oder Schaden durch unsere Arbeit zu verhindern.

Basierend auf den Praktiken, die wir in mehr als 25 Jahren in der Branche entwickelt haben und in denen wir weltweit mehr als 12.000 Kunden betreut haben, finden Sie hier unsere ethischen Richtlinien für KI-Sprachdienstleister.

ReadSpeakers ethische Leitlinien für KI-Sprachdienstleister

1. Erzeugen Sie Ihre eigenen Trainingsdaten.

Wenn Sie Ihre KI-Sprachmodelle trainieren, verwenden Sie niemals Sprachaufnahmen ohne die Erlaubnis des Sprechers und/oder seines gesetzlichen Vertreters und des Inhabers der geistigen Eigentumsrechte. Möglicherweise benötigen Sie auch die Zustimmung anderer Ersteller, z. B. von Tontechnikern und Stimmtrainern. Verwenden Sie keine Daten aus beliebigen Quellen.

Die beste Vorgehensweise, sowohl im Hinblick auf die Qualität als auch auf die Ethik, besteht darin, Ihre eigenen Trainingsdaten zu erzeugen, indem Sie Original-Sprachaufnahmen erstellen. Dies gibt allen Beteiligten die Möglichkeit, sich auf die zulässigen Verwendungszwecke der von Ihnen erstellten KI-Stimme zu einigen. Dieser Schritt ist für den nachgelagerten Schutz unerlässlich, wie wir noch sehen werden.

2. Unterschreiben Sie stets Verträge mit Sprechern.

Verträge sorgen für klare Erwartungen bei allen Beteiligten. Sie sind unerlässlich für den Schutz von Sprechern. Ohne Sprecher gibt es keine KI-Stimme, daher hat diese Regel sowohl eine praktische als auch eine ethische Dimension.

Ihr Sprechervertrag kann und sollte Ausnahmeregelungen für Interessenkonflikte enthalten. Wenn ein Sprecher zum Beispiel viel im Radio arbeitet, möchte er vielleicht nicht, dass seine synthetische Stimme in Radiowerbung verwendet wird. Verwenden Sie diesen vorgelagerten Vertrag, um sicherzustellen, dass nachgelagerte Schutzmaßnahmen vorhanden sind.

3. Unterschreiben Sie stets Verträge mit KI-Stimmen-Nutzern.

In einem Vertrag mit den Sprechern werden die zulässigen Verwendungszwecke einer KI-Stimme festgelegt. Ein Vertrag mit dem Nutzer dieser KI-Stimme – dem Kunden des TTS-Anbieters – regelt diese genehmigten Verwendungszwecke.

Auch das Unternehmen, das die KI-Stimme einsetzt, muss geschützt werden. Unternehmen wollen beispielsweise nicht, dass ein Markenwert anderswo auftaucht. Dieser nachgelagerte Vertrag legt diese Regeln fest und verhindert, dass allen Parteien Schaden entsteht.

Sowohl vor- als auch nachgelagerte Verträge tragen dazu bei, Ihre Vorgehensweise in unserer nächsten Leitlinie zu erläutern.

4. Behalten Sie die Kontrolle über den Einsatz von KI-Stimmen.

Es liegt in der Verantwortung des TTS-Anbieters, die KI-Stimmen auf die zugelassenen Kanäle zu beschränken. Ihre Rolle endet nicht mit der Erstellung der Stimme; Sie müssen auch die Systeme kontrollieren, mit denen Ihre Stimmen übermittelt werden.

Nur so können Sie Ihren Teil der Verträge einhalten. Wenn Ihre Stimme in die falschen Hände gerät, können Sie nicht verhindern, dass sie in nicht autorisierten Anwendungsfällen auftaucht.

Bauen Sie diese Schutzmaßnahmen in Ihre Technologie ein. Bei ReadSpeaker ist es technisch unmöglich, dass jemand, der keinen Vertrag mit uns hat, eine unserer Stimmen zu verwenden.

Wir empfehlen diese Praxis allen Anbietern von KI-Stimmen zum Schutz von Sprechern, TTS-Nutzern und der gesamten Gesellschaft.

5. Entwickeln Sie ein Geschäftsmodell, das sich an ethischem Verhalten orientiert, und nicht andersherum.

Einige Geschäftsmodelle im Bereich der KI-Sprachkommunikation erschweren die Einhaltung der vorstehenden vier Leitlinien. Wenn Sie Ihre Lieferanten und Kunden jedoch nicht schützen können, sollten Sie Ihre Systeme vor dem Start überdenken. Das gilt für jede Branche.

Es reicht nicht, Warnhinweise oder Nutzungsbedingungen anzubieten und die Verbraucher lediglich aufzufordern, einen KI-Stimmengenerator nicht zu missbrauchen. Der Schutz vor Missbrauch muss in die Technologie selbst eingebaut werden. Für Selbstbedienungs-Sprachplattformen könnte dies digitale Wasserzeichen, automatische Ablehnung bekannter Stimmen und Kanäle zur Meldung von Verstößen beinhalten.

Die beste Praxis ist jedoch, den offenen Zugang zu KI-Sprachgeneratoren von vornherein zu verhindern. Anders können Sie Ihre Beteiligten – einschließlich die Gesellschaft als Ganzes – nicht schützen.

Ethische KI bei ReadSpeaker: Wie sich Sicherheit und Qualität gegenseitig unterstützen

Diese Richtlinien basieren auf der Arbeitsweise von ReadSpeaker. Wir sind seit über zwei Jahrzehnten führend in der Sprachsynthesetechnologie und gehörten zu den ersten Anbietern kommerzieller KI-Stimmen.

Von Beginn an haben wir unsere ethisch fundierten, vertragsbasierten Verfahren auf die KI-Sprachsynthese angewandt. Das hat uns zu einem vertrauenswürdigen Namen gemacht – nicht nur bei unseren Kunden, sondern auch in der Sprecher-Community.

Wir sind stolz darauf, als ein TTS-Unternehmen bekannt zu sein, das seine Sprecher gut behandelt. Dieser Ruf hat uns ermöglicht, interessante Arbeit zu leisten. Im Jahr 2022 haben wir beispielsweise mit dem Schauspieler Giancarlo Esposito zusammengearbeitet, um die exklusive KI-Stimme für den Sprachassistenten von Sonos, Sonos Voice Control, zu entwickeln.

Das ist nur ein Beispiel dafür, wie sich ethische Geschäftspraktiken bei ReadSpeaker in gute Geschäfte verwandeln.

Die Befolgung unserer ethischen Leitlinien führt auch zu einer höheren Qualität der KI-Stimmen. Es stimmt, dass wir Original-Schulungsdaten erstellen, um die Rechte der Beteiligten zu schützen. Aber wir tun es auch, weil es ein besseres Produkt ergibt.

Jede neuronale TTS-Stimme von ReadSpeaker beginnt mit einem aufwändigen Sprachaufnahmeprozess, der unter anderem Folgendes umfasst:

Individuelle TTS-Skripts
Erstklassige Sprecher
Fachkundiges Stimm-Coaching
Professionelle Studios
Sorgfältige Bearbeitung

Es ist nicht das Schnellste, aber unser Verfahren hilft uns, die Sprecher zu schützen. Außerdem sind dadurch die besten KI-Stimmen verfügbar. Bei ReadSpeaker gehen Ethik und Qualität Hand in Hand.

Wir laden alle TTS-Anbieter ein, ethische KI-Leitlinien wie die unseren zu übernehmen, damit sie den gleichen Nutzen daraus ziehen können.

Barrierefreiheit

Was der European Accessibility Act für E-Learning bedeutet März 20, 2025 by Amy Foxwell

Entspricht Ihre E-Learning-Plattform dem European Accessibility Act? Beginnen Sie Ihre Recherchen hier.

ReadSpeaker News

ReadSpeaker arbeitet mit CAST zusammen, um die integrative Kursgestaltung deutlich zu optimieren Februar 18, 2025 by Amy Foxwell

ReadSpeaker arbeitet mit CAST zusammen, um das barrierefreie Lernen mit UDL-basierten Text-to-Speech-Lösungen zu verbessern und so das Verständnis und das Engagement für unterschiedliche Lerntypen zu steigern.

Text-to-Speech

Individuelle TTS-Stimmen: 5 Dinge, die Markenmanager wissen sollten Januar 3, 2025 by Gaea Vilage

Der ganze Hype um individuelle KI-Stimmen verwirrt Sie? Diese fünf Fakten helfen Ihnen, die richtige TTS-Stimme zu finden.