Es gibt mehrere Modelle, die der KI Augen verleihen, und das PaliGemma-Modell von Google ist eines davon. Dabei handelt es sich um das Vision-Language-Modell des Unternehmens, das in der Lage ist, Objekte und Text in Bildern zu identifizieren. Google hat gerade das neue Modell PaliGemma 2 auf den Markt gebracht und es kann ab sofort verwendet werden.
Das erste PaliGemma-Modell ist ein nützliches Werkzeug. Es ist nützlich, um Objekte in Bildern zu identifizieren und Bilder mit Bildunterschriften zu versehen. Tatsächlich können auch kurze Videos mit Untertiteln versehen werden. Eine der nützlicheren Funktionen von PaliGemma ist die Möglichkeit, Fragen zu Bildern zu beantworten. Insgesamt handelt es sich also um ein leistungsstarkes Modell mit zahlreichen Einsatzmöglichkeiten.
Google hat das neue Modell PaliGemma 2 angekündigt
Google hat uns das PaliGemma-Modell bereits im Mai offiziell vorgestellt. Das Unternehmen beabsichtigt, dass PaliGemma 2 ein direkter Ersatz für das erste Modell sein soll. Wenn Sie also PaliGemma Version 1 verwenden, empfehlen wir Ihnen, umzusteigen.
Google bietet PaliGemma 2 in mehreren Geschmacksrichtungen an. Es gibt die Parametervarianten 3 Milliarden, 10 Milliarden und 28 Milliarden. Außerdem gibt es Auflösungen von 224 Pixel, 448 Pixel und 896 Pixel.
Was andere Spezifikationen betrifft, verfügt PaliGemma 2 über lange Untertitel. Außerdem sagt Google, dass es über die bloße Identifizierung von Objekten hinausgehen wird. Es scheint, dass das Modell in der Lage sein wird, Menschen zu identifizieren und ihre Emotionen zu interpretieren. Wenn also eine Person glücklich, traurig usw. ist, kann PaliGemma 2 dies erkennen.
Außerdem sieht es so aus, als würde das Model mehr von dem erkennen, was in der Szene vor sich geht, um die gesamte Geschichte zu erzählen. Google sagt, dass PaliGemma besser ist, wenn es darum geht, Musiknoten zu erkennen, chemische Formeln zu erkennen, die Tiefe zu ermitteln und Röntgenberichte des Brustkorbs zu erstellen.
Insgesamt sieht es so aus, als hätte Google einige bemerkenswerte Updates für PaliGemma bereitgestellt. Wenn Sie es verwenden möchten, können Sie den Code dafür in Hugging Face, Kaggle und Ollama erhalten.
Es gibt noch ein weiteres großes Modell von Google
Google hat außerdem die private Vorschau für sein Videogenerierungsmodell namens Veo veröffentlicht. Das Unternehmen hat es dieses Jahr während der Google I/O angekündigt und die Leute haben darauf gewartet. Wenn Sie die Vertex-Cloud-Plattform von Google verwenden, können Sie sie ausprobieren. Sie können Videos mit einer Auflösung von bis zu 1080p erstellen.