Metas neues Modell kann Bilder verstehen

Oscar

OpenAI hat GPT, Google hat Gemini und xAI hat Grok. Alle führenden KI-Unternehmen der Branche haben ihre Flaggschiffmodelle, und Metas ist Llama. Am Mittwoch kündigte Meta sein neuestes KI-Modell namens Llama 3.2 an, und dieses Update verleiht dem Modell neue Augen.

Meta hat gestern während seiner Veranstaltung einige ziemlich aufregende Dinge angekündigt, wie zum Beispiel seine neue Orion-Brille. Fans des Unternehmens werden sicherlich gespannt sein, wie das Unternehmen KI und AR (Augmented Reality) auf erfinderische Weise verbinden möchte. Außerdem haben wir einen Blick auf das neue Meta Quest 3s geworfen, ein günstigeres VR-Headset des Unternehmens.

Meta hat das neue Modell Llama 3.2 angekündigt, das Bilder verstehen kann

Einer der größten Schritte, die ein KI-Unternehmen unternehmen muss, besteht darin, seine Modelle multimodal zu gestalten. Das bedeutet, dass es verschiedene Arten von Medien verstehen und erstellen kann. Daher gilt ein Modell, das sowohl Text als auch Videos verarbeiten kann, als multimodal.

Die Fähigkeit, Bilder zu verstehen, verschafft einem Modell einige große Vorteile. Zunächst einmal kann das Modell einen Live-Video-Feed sehen und verstehen, was es sieht. Dies ist etwas, das das AR-Erlebnis erheblich verbessern kann. Wie The Verge betonte, können Entwickler das Modell bei der Entwicklung von AR-Apps verwenden, die ein Echtzeitverständnis der Umgebung erfordern.

Mit Llama 3.2 sind verschiedene Modelle verbunden, die unterschiedliche Anwendungen haben. Zwei davon sind Vision-Modelle, eines mit 11 Milliarden Parametern und das andere mit 90 Milliarden. Darüber hinaus gibt es zwei Nur-Text-Modelle, eines mit 1 Milliarde Parametern und eines mit 3 Milliarden. Ähnlich wie Gemini sind die kleineren Llama-Modelle für den Einbau in Telefone konzipiert.

Das bedeutet, dass Zwillinge in der Zukunft vielleicht etwas Konkurrenz haben könnten, wenn diese Modelle anfangen, Schläge auszutauschen. Nur die Zeit wird zeigen, ob Metas Modell überhaupt mit dem übereinstimmen wird, was Google bereits etabliert hat.