Google Gemini kann jetzt Audiodateien anhören

Derzeit entwickelt sich die Technologie rasant weiter und KI-Modelle sind in der Lage, mehrere Arten von Medien zu erkennen. Nun, Google hat gerade angekündigt, dass sein neues KI-Modell, Gemini 1.5 Pro, jetzt Audio versteht. Diese Nachricht kommt kurz nachdem Google Gemini in Android Studio angekündigt hat.

Damit KI-Modelle lernen können, müssen sie mit einer Menge Daten gefüttert werden. Zunächst wurden KI-Modelle meist auf textbasierten Daten trainiert. Dies ist vor allem für Chatbots wichtig. Mit der Zeit erlangten sie jedoch die Fähigkeit, Bilddaten zu verarbeiten. Mehrere Chatbots bieten Ihnen die Möglichkeit, Ihre eigenen Bilder hochzuladen, um diese entweder zu rekonstruieren oder zu ermitteln.

Gemini 1.5 Pro kann Audiodateien verstehen

Als Google Gemini zum ersten Mal der Öffentlichkeit vorstellte, sagte das Unternehmen, dass es irgendwann in der Lage sein würde, mehrere Medienformen wie Bilder, Audio und Video zu ermitteln. Nun, es ist schon seit einiger Zeit möglich, Bilder zu ermitteln, und das Unternehmen hat gerade ein weiteres abgehakt. Gemini 1.5 Pro ist das neueste KI-Modell des Unternehmens und befindet sich derzeit in der Testphase. Das Tolle an diesem Modell ist, dass es sogar noch leistungsstärker ist als Gemini Ultra. Das Unternehmen übertrifft sich also selbst.

Dieses neueste Update bietet die Möglichkeit, Audiodateien zu analysieren und zu verarbeiten. Wenn Sie also eine Zusammenfassung einer langen Keynote, Konversation, Telefonkonferenz usw. wünschen, können Sie die Audiodatei direkt auf Gemini hochladen. Es gibt zwar Tools, die Gespräche zusammenfassen können (es gibt sogar Tools auf Smartphones), diese Implementierung ist jedoch anders. Aktuelle Tools transkribieren die Rede in Text und fassen das Gespräch dann basierend auf dem Text zusammen. Gemini 1.5 wird jedoch in der Lage sein, den Mittelsmann auszuschalten und den Ton direkt anzuhören. Dies könnte möglicherweise die Genauigkeit erhöhen.

Wenn Sie diese Funktionalität nutzen möchten, gibt es enttäuschende Neuigkeiten. Um diese Funktion nutzen zu können, müssen Sie die Entwicklungsplattform Vertex AI von Google verwenden. Sie können es auch verwenden, wenn Sie AI Studio verwenden. Wenn Sie also auf eine Veröffentlichung warten, müssen Sie einfach etwas Geduld haben.