Googles neues KI-Videomodell Veo 3.1 kann Bilder in Clips mischen

Google DeepMind hat Veo 3.1 vorgestellt, das neueste Update seines Videogenerierungsmodells. Wie der Name schon sagt, handelt es sich hierbei um eine verbesserte Version von Veo 3. Diese neue Version ist über Plattformen wie Flow, die Gemini-App und die Gemini-API verfügbar und konzentriert sich darauf, Entwicklern ausgefeiltere Tools zum Mischen von Bildern und zur Verbesserung des visuellen Realismus in KI-generierten Medien bereitzustellen. Google hat auch eine kleinere, weniger leistungsstarke Version namens Veo 3.1 Fast veröffentlicht. Letzteres bietet schnellere Generierungszeiten, wenn volle Wiedergabetreue nicht unbedingt erforderlich ist.

Das Veo 3.1-Upgrade macht Googles KI-Videotool intelligenter und kontrollierbarer

Die Kernfunktion von Veo 3.1 ist die Fähigkeit, mehrere separate Bilder zu einem einzigen, einheitlichen Videoclip zusammenzuführen. Diese Funktion, die im Flow-Bearbeitungstool als „Ingredients to Video“ bezeichnet wird, optimiert die frühen Phasen der Produktion. Ein Benutzer kann mehrere unterschiedliche Referenzbilder eingeben – unter Angabe einer Figur, eines Objekts oder eines künstlerischen Stils – und das Modell synthetisiert eine kontinuierliche Szene, die alle diese visuellen Elemente enthält. Eine wichtige Verbesserung in dieser Version ist die Generierung von reichhaltigem, synchronisiertem Audio für die Clips. Dies fügt eine entscheidende Ebene an Tiefe und Professionalität hinzu, die zuvor fehlte.

Das Modell geht auch auf die Notwendigkeit eines besseren Erzählflusses in generierten Clips ein. Die Funktion „Frames to Video“ vereinfacht die Erstellung reibungsloser, filmischer Übergänge. Benutzer liefern nur das Startbild und das Endbild einer Sequenz, und Veo 3.1 generiert automatisch das fortlaufende Videomaterial, das die beiden Endpunkte nahtlos verbindet. Diese Funktion ist besonders nützlich, um Aufnahmen oder kunstvolle Übergänge zwischen Szenen zu erstellen. Während zwei kontrastierende Bilder zu unvorhersehbaren, surrealen Ergebnissen führen können, führt die Bereitstellung ästhetisch ähnlicher Rahmen zu einem äußerst kohärenten Ergebnis.

Darüber hinaus können Ersteller jetzt längere Sequenzen erstellen. Mit der verbesserten Funktion „Verlängern“ können Benutzer einen vorhandenen Clip verlängern, indem das Modell die Fortsetzung auf der letzten Sekunde des vorherigen Filmmaterials basieren lässt. Dies trägt dazu bei, die visuelle Kohärenz und Kontinuität bei der Erstellung von Sequenzen zu wahren, die eine Minute oder länger dauern können. Insgesamt sollten dadurch die historischen Beschränkungen der Videolänge in KI-Tools deutlich reduziert werden.

Erweitertes Erstellungs-Toolkit

Google hat außerdem das Toolkit zur direkten Szenenmanipulation erweitert. Mit der Funktion „Einfügen“ können Ersteller neue Elemente in einen vorhandenen Clip einfügen. Die KI übernimmt die komplexe Integrationsarbeit und passt Schatten, Beleuchtung und Texturen automatisch an, um sicherzustellen, dass die Ergänzung innerhalb der Szene optisch natürlich aussieht.

Darüber hinaus wird Google in Kürze eine Funktion veröffentlichen, mit der Nutzer unerwünschte Objekte oder Zeichen aus einem Clip entfernen können. Die KI wird den Hintergrund rekonstruieren, um eine saubere Bearbeitung zu gewährleisten. Diese präzisen Bearbeitungsfunktionen bieten ein Maß an detaillierter Kontrolle, das Entwickler zu schätzen wissen.

Veo 3.1 ist jetzt verfügbar und bietet einen verbesserten Realismus und eine stärkere Einhaltung von Benutzeranweisungen. Es verspricht auch ein verfeinertes Verständnis filmischer Stile. Die Einführung des Modells bietet präzisere und leistungsfähigere Optionen für diejenigen, die KI in ihren Arbeitsabläufen bei der Videoerstellung nutzen.