Künstliche Intelligenz (KI) und maschinelles Lernen haben zu einer Vielzahl von Anbietern geführt, die behaupten, dass ihre künstlichen Stimmen nicht von echten Stimmen zu unterscheiden sind. Doch wer schon einmal die KI-Stimme „Adam“ statt eines professionellen Sprechers gehört hat, weiß, dass diese Behauptung nicht der Realität entspricht. Die KI-Stimmen können zwar den reinen Inhalt eines Textes wiedergeben, jedoch fehlt es ihnen an der Fähigkeit, Betonungen und Emotionen passend zum Inhalt anzupassen.
KI-Stimmen vs. professionelle Sprecher: Warum der Unterschied entscheidend ist
Die Bezeichnung „Künstliche Intelligenz“ (KI) ist oft irreführend, da die gängigen Sprachmodelle keine echte Intelligenz besitzen. Vielmehr werden sie durch maschinelles Lernen trainiert, Stimmen durch die Verarbeitung großer Mengen an Audiomaterial zu simulieren. Obwohl KI-Stimmen in der Lage sind, Texte vorzulesen, haben sie Schwierigkeiten, die richtige Diktion, Betonung und Emotionen zu erfassen und dem Text entsprechend wiederzugeben.
Obwohl KI-Stimmen in der Lage sind, Texte vorzulesen, haben sie Schwierigkeiten, Betonungen und Emotionen dem Inhalt entsprechend anzupassen. Dadurch klingen sie monoton und unnatürlich. KI-Stimmen transportieren lediglich den reinen Inhalt eines Textes, ohne ihn mit angemessener Betonung und Gefühlen zu versehen. Das Problem liegt in der Interpretation des gesprochenen Textes, insbesondere in der Diktion und Tonalität. Trotz einiger Fortschritte sind KI-Stimmen daher noch nicht mit professionellen Sprechern vergleichbar.
Künstliche Intelligenz (KI) mangelt es an echtem Textverständnis, da ihr persönliche Erfahrungen fehlen, die sich auf die Interpretation eines Textes auswirken könnten. Ein einfacher Satz wie „Wie siehst du denn aus?“ kann je nach Kontext verschiedene Emotionen erfordern. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht, wie Hierstetter anhand eines Beispiels verdeutlicht.
Die Darstellung des sogenannten Subtexts, also der indirekten Bedeutung eines Textes, die sich erst durch die korrekte Betonung erschließt, stellt für Künstliche Intelligenz (KI) derzeit eine Herausforderung dar. Selbst erfahrene Schauspieler und Sprecher haben Schwierigkeiten, den Subtext sofort überzeugend durch ihre Stimme zu vermitteln. In solchen Fällen ist die Anleitung eines Regisseurs notwendig, um den Subtext angemessen zu transportieren.
Eine Herausforderung bei KI-Stimmen besteht darin, komplexe Regieanweisungen umzusetzen. Wenn Sie einer KI-Stimme beispielsweise sagen: „Sei etwas abgehoben, aber immer noch nahbar“, kann sie Schwierigkeiten haben, die richtige Balance zu finden. Darüber hinaus können KI-Stimmen den Abschluss eines Textes nicht in Echtzeit anpassen, was zu einer Diskrepanz zwischen den Anforderungen des Textes und der tatsächlichen Darstellung führen kann.
Trotz der hohen Geschwindigkeit, mit der sich KI-Stimmen weiterentwickeln, ist Hierstetter der Ansicht, dass die bestehenden Herausforderungen nicht bald überwunden werden können. Es ist zweifellos zu erwarten, dass es Fortschritte geben wird und die Stimmen menschenähnlicher klingen werden. Jedoch bleiben falsche Betonungen oder das Fehlen von Betonungen weiterhin ein Problem, insbesondere bei längeren Texten, was zu einem monotonen und künstlichen Klang führen kann.
Die Verwendung von Audiomaterial ohne ausreichende Verwertungsrechte kann zu unangenehmen Folgen führen. Ein Beispiel hierfür ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme plötzlich in zahlreichen TikTok-Videos auftauchte, ohne dass sie dafür ihre Zustimmung gegeben hatte. Standing hat TikTok erfolgreich verklagt, da ihre Stimme unrechtmäßig verwendet wurde. Es ist daher wichtig, sicherzustellen, dass bei der Verwendung von KI-Stimmen die erforderlichen Rechte eingeholt wurden, um mögliche rechtliche Schwierigkeiten zu vermeiden.
Die erfolgreiche Online-Casting-Plattform bodalgo.com besteht seit 15 Jahren und ist die erste Wahl für Unternehmen, die nach der perfekten Stimme für ihre Projekte suchen. Ob Werbung, E-Learning oder Image-Filme – bodalgo.com bietet eine große Auswahl an professionellen Sprechern. Mit fast 60.000 abgewickelten Castings hat sich die Plattform als zuverlässiger und erfahrener Anbieter etabliert.
In Bezug auf die Zukunft der Plattform bodalgo.com spielt Künstliche Intelligenz (KI) bei der Erzeugung von Stimmen keine Rolle. Jedoch nutzen sie bereits heute KI erfolgreich in anderen Bereichen, wie beispielsweise bei der Transkription von Videos und Audios mit bodalgoScripta. Diese KI-Technologie erzielt bereits ausgezeichnete Ergebnisse. Trotzdem werden KI-Stimmen noch für viele Jahre keine ernsthafte Konkurrenz für professionelle Sprecher sein.
Im Allgemeinen setzen Produktionsstudios echte Sprecher ein und verzichten auf künstliche Stimmen. Es gibt jedoch interessante Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Anstatt eine künstliche Stimme zu verwenden, wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so verändert, dass sie der des verstorbenen Hans Clarin ähnelt, der dem Kobold Pumuckl mehr als 30 Jahre lang seine Stimme lieh.
Künstliche Intelligenz (KI) hat in Bezug auf das Stimmenimitieren noch einen weiten Weg vor sich. KI-Stimmen sind nicht in der Lage, Texte richtig zu interpretieren und die Betonung sowie Emotionen entsprechend anzupassen. Das Ergebnis ist ein monotoner und unnatürlicher Klang. Zudem fehlt ihnen das echte Textverständnis und die Fähigkeit, den Subtext eines Textes zu transportieren. Obwohl es Fortschritte bei der Entwicklung von KI-Stimmen gibt, sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher.