Google Gemini AI wird bald Ihre Fahrten buchen und Ihr Essen bestellen

Die nächste Phase der mobilen künstlichen Intelligenz verlagert sich von der Beantwortung von Fragen hin zur tatsächlichen Erledigung von Aufgaben. Aktuelle Erkenntnisse in der Google App Beta (Version 17.4) zeigen, dass das Unternehmen eine Funktion namens „Bildschirmautomatisierung“ mit dem Codenamen „Bonobo“ entwickelt, die darauf abzielt, Gemini direkt mit anderen Apps auf Ihrem Telefon interagieren zu lassen, um mehrstufige Prozesse in Ihrem Namen abzuschließen.

Das Konzept ist einfach: Anstatt eine Mitfahr-App zu öffnen, eine Adresse einzugeben und ein Fahrzeug zu bestätigen, sagen Sie Gemini einfach, er solle „eine Fahrt ins Büro buchen“. Die Bildschirmautomatisierung von Google Gemini wäre in der Lage, sich in der App zu bewegen, die richtigen Optionen auszuwählen und die Bestellung vorzubereiten.

Zunächst wird diese experimentelle Labs-Funktion (entdeckt von 9to5Google) wahrscheinlich nur mit einer kleinen Anzahl kompatibler Apps für allgemeine Aufgaben wie Essensbestellung oder Transportbuchung funktionieren.

Google Gemini steuert Android-Apps über die neue Bildschirmautomatisierungsfunktion

Die Idee eines freihändigen Smartphone-Erlebnisses ist auf jeden Fall verlockend. Google versucht jedoch nicht, jemanden über die Möglichkeiten und Einschränkungen der Funktion in die Irre zu führen. Frühe Codezeichenfolgen enthalten Warnungen, dass „Zwillinge Fehler machen können“ und betonen, dass Benutzer für alle Aktionen der KI verantwortlich bleiben. Dadurch können Sie über die Schnittstelle den Prozess in Echtzeit überwachen und manuell übernehmen, wenn die KI vom Kurs abweicht.

Damit diese Funktion ordnungsgemäß funktioniert, müssen Zwillinge wissen, wie eine App optisch aussieht. Aber wie wir bereits wissen, kann die Benutzeroberfläche der Apps jedes Mal geändert werden. Dies ist wahrscheinlich der Grund, warum die Bildschirmautomatisierung von Google Gemini die von Android 16 QPR3 geleistete Arbeit benötigt, um sicherzustellen, dass das Betriebssystem die schwierige Aufgabe bewältigen kann, eine KI den Bildschirm „sehen“ und „berühren“ zu lassen, wie es eine Person tun würde.

Der Datenschutz-Kompromiss

Wie bei den meisten erweiterten KI-Funktionen sind wichtige Datenschutzaspekte zu beachten. Um den Service zu verbessern, hat Google möglicherweise Prüfer darin geschult, Screenshots zu untersuchen, wie Gemini mit Ihren Apps interagiert. Google rät außerdem davon ab, Automatisierung für sensible Aufgaben einzusetzen. Aktuelle Empfehlungen warnen Benutzer davor, Anmelde- oder Zahlungsinformationen in Gemini-Chats einzugeben und die Funktion nicht für Notfälle zu nutzen.

Der sicherste Weg, diese neuen Agenten einzusetzen, sind derzeit routinemäßige, nicht sensible Aufgaben, bei denen ein kleiner Fehler keine großen Kopfschmerzen verursachen würde.

Der mögliche Übergang von einem passiven Assistenten zu einem aktiven Agenten ist ein bedeutender Meilenstein für Android. Wir haben bereits ähnliche „Auto Browse“-Funktionen in Chrome gesehen, die Formulare automatisch ausfüllen. Diese Logik auf das gesamte Betriebssystem zu übertragen, scheint der nächste logische Schritt zu sein. Ob Sie diese Aussicht aufregend oder leicht aufdringlich finden, hängt davon ab, wie gut Sie sich mit der KI-Autonomie auskennen.