Mit dem VASA-1 von Microsoft können lebensechte sprechende Gesichter erstellt werden

Oscar

An diesem Punkt kann man mit Sicherheit sagen, dass die KI-Technologie rasant voranschreitet. Microsoft ist mithilfe von OpenAI eines der führenden Unternehmen im Bereich KI. Nun, das neueste Tool von Microsoft heißt VASA-1, ein leistungsstarkes Tool zur Erzeugung lebensechter sprechender Gesichter, die in Echtzeit funktionieren.

Dies ist ein Beweis für die wachsende Fähigkeit der KI, Menschen auf der Grundlage minimaler Eingaben nachzuahmen. TikTok arbeitet beispielsweise an einem Tool, mit dem Menschen mit nur 10 Sekunden Audioeingabe einen KI-generierten Klon ihrer Stimme erstellen können. Zum Zeitpunkt der Erstellung dieses Artikels war dieses Tool nicht für die Öffentlichkeit verfügbar. Wir gehen jedoch davon aus, dass es relativ bald erscheinen wird.

Mit VASA-1 von Microsoft können Benutzer in Echtzeit lebensechte sprechende Gesichter erstellen

Wir haben Beispiele dafür in Hunderten von Werbeanzeigen für Apps gesehen, mit denen Sie ein Porträt so animieren können, dass es aussieht, als würden Sie ein Lied von Billie Eilish singen. Allerdings ist die Technologie hinter VASA-1 viel fortschrittlicher und ausgefeilter. Sie können für dieses Tool ein einzelnes Bild verwenden. Anhand dieses Bildes kann das Tool realistische Bewegungen erzeugen, um den Eindruck zu erwecken, dass die Person spricht.

Das ist schon beeindruckend, aber es geht noch weiter. VASA-1 kann tatsächlich subtile Gesichtsbewegungen erzeugen und ein breites Spektrum an Emotionen vermitteln. Dies ist etwas, was bei ähnlichen Werkzeugen im Laufe der Jahre gefehlt hat. Sein Hauptaugenmerk liegt auf Realismus, und er kommt diesem sehr nahe.

Das Unternehmen hat auf seiner Website einige Beispiele dieser Technologie gezeigt und sie sind sehr beeindruckend. Darüber hinaus können sprechende Gesichter in Echtzeit lippensynchron mit dem Ton synchronisiert werden. Das ist eine weitere großartige Qualität dieses Tools.

Microsoft VASA-1 kann 512×512-Videos mit bis zu 40 Bildern pro Sekunde erzeugen. Außerdem rühmt sich Microsoft im Online-Streaming-Modus mit einer Latenz von nur 170 ms.

Zum jetzigen Zeitpunkt wissen wir nicht, wann Microsoft plant, diese Funktion der breiten Masse zugänglich zu machen. Wenn dies jedoch der Fall ist, sind wir ziemlich sicher, dass Microsoft es monetarisieren wird. Es könnte sich möglicherweise um eine Funktion in einem der Abonnementdienste des Unternehmens handeln. Um sicherzugehen, müssen wir warten, bis es herauskommt.