Google setzt ein ehrgeiziges neues KI -Modell aus, das auf auffallend menschliche Weise mit dem Internet interagieren soll. Diese spezielle KI, die als Gemini 2.5 -Computer verwendet wird, kann auf Webbrowser navigieren, Schaltflächen klicken, Formulare ausfüllen und sogar durch Seiten scrollen – alle basierend auf einer einfachen Textaufforderung. Es ist ein bedeutender Schritt zur Erstellung von KI -Agenten, die komplexe digitale Aufgaben autonom ausführen können. Das Modell kann über einfache Chatbot -Antworten hinausgehen, um sich aktiv mit Benutzeroberflächen zu beschäftigen.
Dieses KI -Modell basiert auf den Fähigkeiten von Gemini 2.5 Pro und unterscheidet sich durch die Funktionsweise in einer virtuellen Browserumgebung. Im Gegensatz zu einigen konkurrierenden KI -Agenten, die auf ein gesames Desktop -Betriebssystem zugreifen können, konzentriert sich das Google -Modell speziell auf Web- und Mobiloberflächen. Dieser Ansatz ermöglicht es ihm, alltägliche digitale Aufgaben anzugehen, die zuvor menschliche Interventionen oder komplexe API -Integrationen erforderten. Denken Sie an eine KI, die ein detailliertes Online -Formular ausfüllt, eine überfüllte Website navigiert oder Artikel in einem auf einer Liste basierenden Warenkorb hinzufügen – alles mit minimaler Aufwand.
Gemini 2.5 Computermodell ist Googles neuer AI -Agent von Google
Der Kern von Gemini 2.5 -Computergebrauch liegt in einer iterativen Rückkopplungsschleife. Wenn ein Benutzer der KI eine Aufgabe angibt, empfängt das Modell zunächst die Anforderung, einen Screenshot des aktuellen Bildschirms und einen Verlauf seiner früheren Aktionen. Anschließend werden diese Informationen verarbeitet und eine bestimmte UI -Aktion vorgeschlagen, z. B. Klicken auf einen Link, eingeben Text in ein Feld oder das Scrollen nach unten. Der Client-Side-Code führt die Aktion, die Bildschirmaktualisierungen und ein neuer Screenshot aus, der an die KI zurückgeschickt wird. Diese Schleife wird fortgesetzt, bis die ursprüngliche Aufgabe abgeschlossen ist.
Google hat dieses Modell hauptsächlich für Webbrowser optimiert. Es ist jedoch auch vielversprechend für die Kontrolle der mobilen App. Interne Tests bei Google verwendet bereits Versionen dieses Modells für Aufgaben wie UI -Tests und beschleunigen Softwareentwicklung.
Leistung und Sicherheit im Fokus
Google behauptet, dass das Gemini 2.5 -Computer -Modell „führende Alternativen in mehreren Web- und mobilen Benchmarks übertreffen“ mit geringerer Latenz. Demonstrationen zeigen, dass die KI -Aufgaben wie das Spielen 2048 oder die Browsing -Websites kompetent erledigen. Interessanterweise zeigen kurze Tests sogar die Lösung von Google Search Captchas, eine bedeutende Hürde für nichtmenschliche Benutzer.
Google betont jedoch auch die Sicherheit. Das Unternehmen ist sich der einzigartigen Risiken bewusst, die mit AI -Agenten verbunden sind, die Computer kontrollieren. Schlechte Akteure könnten potenziellen Missbrauch verursachen, oder sogar unerwartes Verhalten der KI könnte auftreten. Vor diesem Hintergrund hat das Unternehmen Sicherheitsmerkmale direkt in das Modell eingebaut. Entwickler empfangen auch Tools, mit denen die KI davon abgehalten wird, Aktionen mit hohem Risiko auszuführen, z.
Derzeit ist Gemini 2.5 Computer -Nutzung für Entwickler über die Gemini -API in Google AI Studio und Vertex AI verfügbar. Es ist noch nicht direkt für Verbraucher zugänglich. Trotzdem ebnet diese Technologie den Weg für eine Zukunft, in der KI mehr unserer routinemäßigen digitalen Interaktionen umgeht.