Man kann sie weder fühlen noch riechen, die Künstliche Intelligenz (KI). Doch wir hören sie immer öfter. In der Sprecherbranche ist KI heutzutage unumgänglich. Wie verändert sich die Branche und was sagen Betroffene dazu?
Von Camilla Düx und Klara Jacob
Du liegst mit tränenden Augen auf dem Sofa. Eine zitternde Stimme dringt zu dir durch. Sie führt durch die traurige Geschichte, die sich vor dir auf dem Bildschirm abspielt. Sie hält inne, wenn es wehtut, lächelt hörbar, wenn ein Moment der Hoffnung aufblitzt. Du bemerkst gar nicht, dass diese Stimme nie Trauer empfunden hat. Im Abspann der Hinweis: „Voice: AI generated“. Plötzlich fühlen sich deine Tränen merkwürdig fehl am Platz an.
Sprecherbranche durch KI im Ausnahmezustand
Sprecher*innen leben davon, Geschichten zu erzählen, mit ihrer Stimme Nähe zu schaffen, Emotionen zu transportieren. Digitale Stimmen begleiten uns seit Jahren, beispielsweise in Werbungen, Hörspielen oder Navigationssystemen. Doch die Branche befindet sich durch KI im Wandel.
Dieser Beitrag ist im Rahmen des Bachelorseminars “Digitale Kommunikation” an der HAW Hamburg entstanden und wurde ausgewählt, um auf FINK.HAMBURG veröffentlicht zu werden.
„Der Druck ist hoch“ – Margit Sander
Sprecher*innen sind professionelle Stimmen für Film, Serien, Werbung, Hörbücher, Games oder Lernformate. Der Beruf existiert seit den 1950er/60er-Jahren und viele Sprecher*innen arbeiten freiberuflich. In Deutschland sind circa über 11.000 Sprecher*innen in der Deutschen Synchronkartei gelistet, rund 600 im Verband Deutscher Sprecher*innen organisiert.
Margit Sander (50) ist bereits seit über fünfzehn Jahren Sprecherin, verleiht ihre Stimme an namhafte Unternehmen wie Chanel und Mercedes-Benz. Sie steht der KI skeptisch gegenüber. Der technische Fortschritt bereitet ihr Sorgen, sie möchte ihre eigene Stimme schützen. „Ich kenne Fälle, in denen Stimmen ohne Zustimmung ins Training eines Modells eingeflossen sind. Die Technik ist weiter als der rechtliche Rahmen und das macht Angst.“
Ein eigenes Gesetz zum Schutz der Stimme gibt es bisher nicht. Da die Stimme aber ein persönliches Merkmal ist, an dem man Menschen erkennen kann, ist sie durch das allgemeine Persönlichkeitsrecht und die Datenschutz-Grundverordnung (DSGVO) geschützt. KI kann Stimmen jedoch technisch leicht verändern, sodass sie rechtlich nicht mehr eindeutig einer Person zugeordnet werden kann. Dadurch können Stimmen auch ohne Zustimmung in KI-Systeme gelangen.

Sander spürt die wirtschaftlichen Veränderungen: Auftraggeber*innen setzen immer häufiger künstliche Stimmen ein, statt Sprecher*innen zu buchen. Ein Kunde, für den Sander jahrelang Telefonansagen produziert hat, „steht vor dem Aus, weil KI billiger ist“. Sie erlebte den Kampf gegen KI hautnah. Für einen Werbeauftrag musste sie gegen die KI antreten. Ihre Stimme gegen die künstlich generierte Stimme. Ein Wettkampf, den sie verloren hat.
Dennoch lehnt Sander künstliche Intelligenz nicht grundsätzlich ab. In der Medizin und der Datenanalyse sieht sie deutliche Vorteile. In der Kunst allerdings, und dazu zählt sie Sprechen und Schauspiel, sei KI fehl am Platz. „Ich verstehe die Faszination nicht. Nur weil man etwas nachmachen kann? Das ist alles?“, sagt sie. Für Sander steht fest: KI bedroht nicht nur ihren Beruf, sondern auch die Authentizität in künstlerischer Arbeit. Doch nicht alle Sprecherinnen teilen Sanders Skepsis.
„Eine Ergänzung, kein Ersatz“ – Tom Wiedemann

Anders sieht das der Synchronsprecher Tom Wiedemann (20), der beispielsweise Paul in den Conni Hörspielen spricht. Wiedemann ist technisch interessiert und sieht KI als Werkzeug, das Produktionen effizienter machen kann. Nur transparent sollte die Nutzung sein. Er hat bereits erlebt, dass seine Stimme höher gepitcht wurde, weil er oft junge Figuren spricht. Solche Anpassungen sind für ihn kein Problem. Missbrauch seiner Stimme lehnt er jedoch klar ab: „Meine Stimme ist mein Werk. Das ist meine Kunst.“
Während Sander stärkere Regulierungen fordert, sieht Wiedemann darin eher eine Gefahr für Innovation. Er sieht einen Unterschied zwischen imitierter und gelebter Emotion: „Wenn du biografische Szenen sprichst, musst du die Figur fühlen.“ KI könne überzeugend so tun, „aber sie ist es nicht, darin bleibt der Mensch überlegen“. Seine Prognose: Die Branche verändert sich, aber sie verschwindet nicht.
„Veränderung ist unausweichlich“ – Malte Meibauer
Als digitale Stimmen gelten alle Stimmen, die über technische Geräte hörbar sind, beispielsweise aus Fernsehern oder Smartphones. Sie können von menschlichen Sprecher*innen stammen oder künstlich erzeugt sein.
Malte Meibauer (34) steht zwischen den Positionen von Sander und Wiedemann. Er ist weder optimistisch noch pessimistisch. KI ist für ihn eine Realität, der man sich stellen muss. Er ist seit circa fünf Jahren als Sprecher tätig, kennt aber auch die andere Seite des Mikrofons: vorher war er Tontechniker und Regieassistent in einem Tonstudio.

Meibauer geht davon aus, dass in sachlichen Formaten, wie beim E-Learning, Sprecher*innen in Zukunft durch KI ersetzt werden. Gleichzeitig glaubt er an eine Grenze: “Ich gehe nicht ins Kino, damit ich am Ende inhaltlich weiß, worum es in dem Film geht. Sondern ich gehe ins Kino, weil ich etwas erleben will. Ich kann mir nicht vorstellen, dass Leute diesen menschlichen Aspekt der Kunst einbüßen wollen”.
KI in der Sprecherbranche: Das erforscht die Wissenschaft
KI-Stimmen klingen inzwischen so überzeugend, dass wir sie oft gar nicht mehr von menschlichen Stimmen unterscheiden können. In der Studie „Attractive synthetic voices“ (2025) wurden 75 Teilnehmende in Hörtests gebeten, menschliche und KI-generierte Stimmen zu beurteilen. Fast jede zweite KI-Stimme (55 %) wurde fälschlicherweise für menschlich gehalten, menschliche Stimmen schnitten zwar in der Bewertung von Sympathie und Attraktivität etwas besser ab, der Unterschied war aber gering.
KI-Stimmen entstehen durch Text-to-Speech-Systeme, die geschriebenen Text automatisch in gesprochene Sprache umwandeln. Moderne KI-Stimmen entstehen, indem Sprachmodelle mit tausenden Stunden aufgezeichneter Sprache trainiert werden und daraus neue, synthetische Stimmen erzeugen. Je nach System können Stimmen allgemein klingen oder gezielt an reale Stimmen angelehnt sein.
Eine Übersichtsarbeit deutscher Forscher*innen (2024), zeigt: Ob eine Stimme als „echt“ empfunden wird, hängt stark vom Kontext ab. Einzelne Merkmale reichen selten aus, um Täuschung sicher zu erkennen. Die Autor*innen betonen, dass menschliche Wahrnehmung allein nicht ausreicht, um KI-Stimmen zu erkennen und empfehlen, KI-Stimmen klar zu kennzeichnen, damit Hörer*innen wissen, wem oder was sie zuhören.
Stimmen sind mehr als Klang
Trotz unterschiedlicher Ansichten eint Sander, Wiedemann und Meibauer ein Gedanke: Ganz ersetzen lässt sich der Beruf nicht. Nicht, solange Menschen sich nach authentischen Stimmen sehnen. Die Stimme steht für Identität, Erfahrung, Gefühl. KI kann all das nachahmen, aber nicht besitzen. Die Branche steht an einem Wendepunkt: Ökonomisch wird KI viele Routinejobs in der Vertonung von beispielsweise Navigation oder Erklärfilmen ersetzen. Ethisch braucht es klare Regeln, damit Stimmen nicht ungefragt kopiert, geklont oder missbraucht werden. Künstlerisch bleibt der Mensch vorerst unersetzlich.







