NetBuild Portal

Gemini steuert den Browser selbstständig

Google demonstriert ein neues Gemini-Feature, das Webseiten eigenständig bedient. In frühen Demovideos klickt, tippt und navigiert das Modell durch den Browser und setzt komplexe Aufgaben um. Gleichzeitig wird deutlich: Bis zur Finalversion sind noch einige Hürden zu nehmen.

So funktioniert die Browser-Steuerung

Gemini erhält ein Ziel in natürlicher Sprache, analysiert die Seite visuell und semantisch und leitet daraus konkrete Aktionen ab. Das umfasst Klicks, Tastatureingaben, Scrollen sowie Navigation zwischen Unterseiten. In den Demos plant die KI ihre Schritte, führt sie nacheinander aus und reagiert auf unerwartete Zustände, etwa neue Dialoge oder Validierungsfehler. Erste Eindrücke zeigen jedoch auch Latenzen und gelegentliche Fehlaktionen.

Die KI klickt, tippt und scrollt – aber nur, wenn Nutzerinnen und Nutzer es erlauben.

Mögliche Einsatzszenarien

Gedacht ist die Automatisierung vor allem für wiederkehrende Webaufgaben: Formulare ausfüllen, Rücksendungen anstoßen, Termine buchen oder Konto-Einstellungen anpassen. Im Arbeitsalltag könnte Gemini Rechercheaufgaben beschleunigen, Daten aus Portalen extrahieren, Berichte zusammenstellen oder einfache Webtests durchführen. Auch bei Barrierefreiheit und für Menschen mit motorischen Einschränkungen eröffnen sich neue Bedienoptionen.

Noch ein weiter Weg bis zur Finalversion

Die Demos deuten typische Baustellen an: Captchas, 2FA, modale Dialoge, Cookie-Banner und dynamische UIs bleiben Stolpersteine. Zuverlässigkeit, Erklärbarkeit der Aktionen und sauberes Fehler-Handling sind entscheidend, ebenso wie Performance und Betriebsaufwand. Zudem ist unklar, wie stabil die Steuerung über verschiedene Websites und Layout-Änderungen hinweg funktioniert.

Sicherheit und Kontrolle

Für eine breite Einführung braucht es klare Sicherheits- und Datenschutz-mechanismen. Erwartbar sind explizite Freigaben, transparente Protokolle, ein jederzeitiger Abbruch sowie restriktive Berechtigungen nach dem Prinzip der minimalen Rechte. In Unternehmen werden Richtlinien, Audit-Logs und abgeschottete Umgebungen zentral sein, um Missbrauch und Datenabfluss zu verhindern.

Verfügbarkeit

Aktuell handelt es sich um frühe Einblicke in die Technologie. Google zeigt, was möglich wird, nennt aber keinen konkreten Starttermin. Wahrscheinlich erfolgt die Einführung schrittweise und zunächst in begrenzten Szenarien, um Modellqualität, Sicherheit und Nutzererlebnis unter realen Bedingungen zu validieren.

Quelle: t3n.de

Weitere Beiträge

Neue Wasserform in Uranus und Neptun entdeckt

Ein internationales Forschungsteam hat eine revolutionäre Entdeckung gemacht: Eine neue Phase von Wasser, die superionisch ist und extrem leitfähig. Dies könnte die Geheimnisse im Inneren der Planeten...

Patrick Bohn

Geschäftsführer

Top IT-Jobs der Woche

Bist du auf der Suche nach einem spannenden neuen Job in der IT-Branche? Der Jobmarkt boomtDer IT-Sektor wächst rasant, und es gibt zahlreiche offene Stellen in verschiedenen Bereichen. Besonders gefr...

Patrick Bohn

Geschäftsführer