KI-Stimmen sind offiziell zu realistisch!

KI-generierte Stimmen sind nichts Neues, es gibt sie schon seit Jahrzehnten. Wie dem auch sei, die digitalen Stimmen, die wir im Laufe der Jahre erlebt haben, würden niemanden wirklich täuschen. Ich denke jedoch, dass digitale Stimmen heutzutage den Punkt erreicht haben, an dem sie beängstigend sein können. Dafür gibt es mehrere Gründe. Sind KI-generierte Stimmen heutzutage zu realistisch?

Wir haben uns seit den klinischen und unzusammenhängenden Stimmen, die wir im Laufe der Jahre gehört haben, weit entfernt. Denken Sie an alte digitale Stimmen aus den 2000er und 2010er Jahren. Google Assistant und Alexa waren so ziemlich das Beste, was es werden konnte. Mit dem Boom der generativen KI kam es jedoch zu einem enormen Vorstoß, KI realistischer zu gestalten, und Sie können darauf wetten, dass dies tiefgreifende Auswirkungen darauf hatte, wie viel Arbeit die Menschen in ihre digitalen Stimmen steckten.

Denken Sie jetzt an die Stimmen, die OpenAI bei der Einführung von GPT-4o vorführte. Derzeit gibt es vier Stimmen auf der Plattform. Wir dürfen auch Googles Gemini-Stimme nicht vergessen. Obwohl sie alle realistisch klingen, glaube ich nicht, dass wir gesehen haben, wie verrückt diese Stimmen werden können. Erst als ich Googles neues Tool ausprobierte, wurde mir klar, dass digitale Stimmen möglicherweise die Schwelle zum Realismus überschritten haben.

NotebookLM hat mir gezeigt, dass digitale Stimmen zu realistisch sind

Falls Sie noch nicht davon gehört haben: Google hat letztes Jahr ein Produkt namens NotebookLM herausgebracht. Stellen Sie es sich als KI-gestütztes Notizbuch vor. Sie können Informationen wie Quellen und Dokumente zu einem bestimmten Thema hochladen und den Überblick über das Material behalten. Google nutzt seine KI, um das von Ihnen hochgeladene Material zu lesen und Informationen daraus zu extrahieren.

Mit diesem Tool können Sie Fragen zu dem von Ihnen hochgeladenen Material stellen. Stellen Sie es sich so vor, als würden Sie einen Chatbot verwenden, der nur auf das von Ihnen hochgeladene Material trainiert ist. Stellen Sie sich vor, Sie laden ein ganzes Physiklehrbuch hoch und können Fragen zu dem darin enthaltenen Material stellen.

Obwohl diese Plattform nichts Neues ist, gibt es eine neue Funktion, die sich Google ausgedacht hat und derzeit testet. Sie können Google eine Diskussion im Podcast-Stil basierend auf den von Ihnen hochgeladenen Informationen erstellen lassen. Wenn ich Podcast-Stil sage, meine ich, dass es so aussehen soll, als hätten zwei Personen tatsächlich ein Mikrofon aufgestellt und einen echten Podcast aufgenommen.

Die Stimmen klingen aus mehreren Gründen beunruhigend realistisch. Die Sätze fließen natürlich und die Kadenz und Betonung der Sprecher sind äußerst natürlich. Nicht nur das, Google hat sogar einige der kleinen Dinge erfasst, die Mensch von Maschine unterscheiden. Ich kann Atemgeräusche hören, es fügt die „Ähms“ und „Likes“ hinzu, die man hört, wenn Menschen im wirklichen Leben sprechen, und es gab sogar einen Fall, in dem einer der Sprecher ein Wort falsch begann und sich korrigierte. Google ging sogar so weit, einen der Sprecher lachen zu lassen.

Es ist eine Sache, eine Stimme zu entwickeln, die gut klingt, wenn man direkt antwortet oder ein Skript vorliest. Eine Stimme zu entwickeln, die klingt, als würde sie eine menschliche Diskussion führen, ist jedoch eine ganz andere Sache. Und Google hat es geschafft.

Während der Podcast-Folge ist mir Folgendes aufgefallen:

Sprecher Nr. 1: „Der Artikel nennt also speziell zwei Apps. USB Audio Pro und Musicalot. Haben Sie von einer davon gehört?“

Sprecher Nr. 2: „USB Audio Pro. Das kommt mir bekannt vor. Ich glaube, ein Freund von mir verwendet es.“

Es weist buchstäblich auf eine freundschaftliche Beziehung zwischen einem der Sprecher und einer Person hin. Diese Beispiele sind nur einige von vielen anderen Beispielen.

Die Stimme von Google hat das Gruseligste getan …

Okay, es ist gut, aber es gibt auch andere gute digitale Stimmen. Was macht diese anders? Nun, die Sache dabei ist, dass sie wahrscheinlich das Gruseligste getan hat, was eine KI-Stimme tun kann … es hat mich vergessen lassen.

Ich lud einen meiner Artikel hoch und ließ ihn eine Diskussion auslösen. NotebookLM spuckte eine 12 1/2-minütige Mini-Podcast-Episode aus. Ich begann, sie anzuhören, und der Schock, dass es sich um eine KI-generierte Diskussion handelte, verflog. Nach ein paar Minuten vergaß ich tatsächlich, dass ich kurz KI-generierte Stimmen hörte. Vielleicht war es eine Minute lang, vielleicht waren es 15 Sekunden. Aber Google hat die Kunst gemeistert, Stimmen so geerdet und realistisch klingen zu lassen.

Wie Sie sich vorstellen können, hat mir das einen Heidenschreck eingejagt. Ich wusste, dass es KI-generiert war, aber es war so realistisch, dass ich es tatsächlich vergessen habe.

Letztes Puzzleteil

Unternehmen versuchen mit aller Kraft, uns ihre KI-Produkte aufzudrängen, und das aus mehreren Gründen. Natürlich gibt es Unternehmen, die nur versuchen, die Investoren zufriedenzustellen, aber es gibt auch fehlgeleitete Unternehmen, die uns am liebsten den Nutzen von menschengemachten Inhalten vergessen lassen würden. Wir sehen Plattformen, die buchstäblich ganze Videos für Sie generieren, mit einem KI-generierten Avatar, einem KI-generierten Skript und einer KI-generierten Stimme.

Darüber hinaus sehen wir Unternehmen wie Wix, die damit werben, dass Benutzer mithilfe von KI in wenigen Minuten ganze Websites erstellen können. Und wir dürfen auch die KI-Dating-Apps nicht vergessen. Es gibt sogar eine Social-Media-App, bei der die KI ihre eigenen Inhalte und Posts selbst generiert. Wir leben in einer Welt, in der wir langsam die Schönheit menschlicher Schöpfung vergessen, und was das Ganze noch schlimmer macht, ist, dass es Menschen gibt, die dieses Verhalten gutheißen.

Jetzt, wo KI-Stimmen so gut werden, wird sich dieser Trend noch verstärken. Die Sache ist, dass Menschen mit Sprache etwas assoziieren; eine warme und menschlich klingende Stimme kann eine Person mit etwas verbinden. Dieser Trend wird nur noch dadurch verstärkt, dass Unternehmen die Stimmen persönlicher und auf den Einzelnen zugeschnitten klingen lassen.

Realistische Stimmen sind eines der letzten Puzzleteile, die eine Person dazu bringen, sich vollständig mit einer KI zu identifizieren. Wenn Sie einer KI mit einer kalten und schräg klingenden Stimme zuhören, ist dies eine ständige Erinnerung daran, dass es sich um einen Roboter handelt. Sobald die Stimme realistisch wird, besteht eine höhere Wahrscheinlichkeit, dass Sie sie als menschlich betrachten.

Was könnte also in Zukunft passieren?

Wir befinden uns an einem Wendepunkt, was die Beziehungen zwischen Mensch und KI angeht. Es gibt Menschen, die bereits mit KI in Verbindung stehen. OpenAI hat sogar eine Erklärung abgegeben, in der die Menschen aufgefordert werden, sich nicht in ChatGPT zu verlieben. Wissen Sie, was daran so verrückt ist? Jeder, der alt genug ist, um mit KI in Verbindung zu treten, ist in einer traditionelleren Welt aufgewachsen, in der die einzigen Interaktionen menschlicher Natur waren.

Doch was ist mit der nächsten oder übernächsten Generation, wenn Unternehmen die Grenzen dessen, wie menschlich KI sein kann, ausloten und uns ihre KI aufdrängen? Stellen Sie sich ein Kind vor, das morgen geboren wird und in einer zunehmend KI-gesteuerten Welt aufwächst. Wie würde dieses Kind im Jahr 2040 als Teenager aussehen? Wie viele LLMs hätten das Leben dieses Kindes beeinflusst? Wird dieses Kind wissen, wie falsch KI-generierte Beziehungen sind, wenn es von einem Chatbot statt von einem Lehrer unterrichtet wurde?

Jetzt, wo Stimmen so real sind, was nützt es, Podcasts aufzunehmen, wenn man einfach einen generieren kann? Natürlich werden die Leute heutzutage einen KI-generierten Podcast ablehnen, aber denken Sie einmal darüber nach, wie die Dinge in ein paar Jahren sein werden, wenn KI normaler geworden ist. Jüngere Zuhörer, die mit KI aufgewachsen sind, werden sich höchstwahrscheinlich nicht darum kümmern. Anstatt eine Gruppe von Podcastern zu loben, werden die Zuhörer das Modell loben, das mit den Daten gefüttert wird.

Da KI-Stimmen so realistisch klingen, ist die Menschheit einen Schritt näher daran, die Menschheit selbst zu vergessen. Google hat die Kunst der Stimme gemeistert und wir haben keine Ahnung, welche Konsequenzen sich daraus ergeben werden.