OpenAI gibt zu, dass Prompt-Injection eine dauerhafte Bedrohung für KI-Browser darstellt

Oscar

OpenAI sagt, dass es hart daran arbeitet, seinen Atlas AI-Browser sicherer zu machen, da Experten vor den Prompt-Injection-Angriffen warnen. Das Schlimmste daran ist, dass es sehr schwierig ist, solche Angriffe zu stoppen. Sie verbergen schädliche Anweisungen in E-Mails oder Webseiten und verleiten KI-Agenten dazu, das Falsche zu tun. Der Technologieriese sagt, dass das Problem nicht vollständig verschwinden wird.

Bei KI-Browsern besteht das Risiko von Prompt-Injection-Angriffen

OpenAI hatte bereits im Oktober dieses Jahres seinen neuen KI-Browser, den ChatGPT Atlas, auf den Markt gebracht. Doch schon bald nach der Einführung zeigten Sicherheitsforscher, wie ein paar versteckte Wörter in einem Dokument oder einer E-Mail das Verhalten des Browsers verändern könnten. OpenAI räumte außerdem ein, dass der Agentenmodus des Browsers die Sicherheitsrisiken erhöhen könnte. Dies liegt vor allem daran, dass KI das System im Namen des Benutzers steuern kann.

Andere Unternehmen auf der ganzen Welt waren sich einig, dass dies nicht nur das Problem von OpenAI ist. Brave, einer der beliebtesten Browser, warnte außerdem davor, dass die sofortige Injektion viele KI-Browser beeinträchtigen könnte. Andere Technologiegiganten wie Anthropic und Google sagen, dass diese Angriffe langfristige Probleme seien. Um es noch schlimmer zu machen, sagt das National Cyber ​​Security Centre des Vereinigten Königreichs, dass Prompt-Injection-Angriffe möglicherweise nie vollständig verhindert werden können.

Schadensbegrenzung ist die einzige Lösung für den Angriff

Das britische Forschungszentrum rät Unternehmen außerdem, sich auf die Schadensbegrenzung zu konzentrieren, anstatt zu versuchen, die sofortige Injektion vollständig zu stoppen. Laut OpenAI besteht sein Schutz gegen solche Angriffe in schnelleren Tests und schnelleren Updates.

Um das Problem weiter zu lösen, hat das Unternehmen ein KI-Modell entwickelt, das mithilfe von Reinforcement Learning trainiert wird, sich wie ein Hacker zu verhalten. Es sucht kontinuierlich nach Möglichkeiten, KI-Agenten auszutricksen und testet Angriffe in Simulationen. Dies hilft dem Unternehmen, den Angriff zu beheben oder zu verhindern, bevor ein echter Angreifer ihn ausnutzen kann. OpenAI sagt weiter, dass das System bereits neue Angriffsmethoden gekennzeichnet hat, die menschlichen Testern entgangen sind.

Darüber hinaus geht es nicht nur um die Browser und die Technologieunternehmen. Auch das Nutzerverhalten spielt eine große Rolle. Wiz-Forscher Rami McCarthy erklärt, dass das Risiko solcher Angriffe weiter zunehmen wird, wenn die KI mehr Freiheiten und Zugriff auf die sensiblen Daten der Nutzer hat.