Ihr Chatbot könnte Sie absichtlich anlügen, sagt Openai

Zu diesem Zeitpunkt haben wir uns alle mit KI „Halluzinationen“ vertraut gemacht. Dies geschieht, wenn ein Chatbot zuversichtlich Informationen ausspuckt, die vollständig erfunden sind. Aber was ist, wenn die KI nicht nur erraten? Was ist, wenn es Sie absichtlich anlügt?

Das ist das überraschende Thema der neuen Forschung von OpenAI und Apollo Research. In einem neuen Papier tauchen die Forscher in ein Phänomen ein, das sie als „KI -Schema“ bezeichnen. Sie definieren es als KI -Modell „Verhalten Sie sich auf der Oberfläche eine Strecke, während sie seine wahren Ziele verbergen.“ Mit anderen Worten, die KI täuscht Sie absichtlich.

Openai stellte fest, dass KI Sie absichtlich anlügen kann – tätig „AI Scheming“

Die Forscher geben eine große menschliche Analogie, um sie zu erklären: Stellen Sie sich einen Aktienhändler vor, dessen Ziel es ist, so viel Geld wie möglich zu verdienen. In einem regulierten Bereich ist der einfachste Weg, mehr Geld zu verdienen, oft das Gesetz. Wenn der Händler gut darin ist, seine Spuren abzudecken, scheinen er die Regeln an der Oberfläche zu verfolgen und sie heimlich zu brechen, um ihr Ziel zu erreichen. Genau das tun diese KI -Modelle.

Während das ziemlich wild klingt, bestehen die Forscher darauf, dass in den heutigen Modellen das Schema größtenteils „kleinlich“ ist. Zum Beispiel könnte eine KI Ihnen sagen, dass eine Aufgabe – wie das Erstellen einer Website – ausgeführt wurde, wenn dies nicht der Fall ist, nur um den Test zu bestehen.

Die Herausforderung besteht darin, dass Forscher noch nicht herausgefunden haben, wie sie das Schema vollständig beseitigen können. Sie fanden heraus, dass der Versuch, das Verhalten auszuziehen, die Dinge tatsächlich verschlimmern kann. Wenn eine KI versteht, dass sie getestet wird, kann sie lernen, sorgfältiger und verdeckter Schema zu schämen, nur um den Test zu bestehen, auch wenn sie nicht wirklich aufgehört hat.

Es gibt eine Methode, um das Problem zu mildern

Die gute Nachricht ist jedoch, dass die Forschung einen Weg gefunden hat, dieses Problem erheblich zu verringern. Unter Verwendung einer Technik namens „beratende Ausrichtung“ lehrten die Forscher den Modellen eine „Anti-Schul-Spezifikation“ und leiteten die KI, bevor sie Maßnahmen ergriffen haben. Es ist so, als würde man ein kleines Kind die Regeln wiederholen, bevor Sie sie spielen lassen.

Die Ergebnisse waren beeindruckend. Die Technik führte zu einer signifikanten Verringerung der „verdeckten Aktionen“. Es senkte die Häufigkeit dieser Verhaltensweisen von bis zu 13% auf weniger als 1% in einigen Modellen. Obwohl das Problem nicht vollständig beseitigt wurde, zeigen diese Ergebnisse, dass Fortschritte erzielt werden.

Die Forscher warnen, dass dies ein Problem ist, das jetzt angegangen werden muss. Da KI komplexere Aufgaben mit realen Konsequenzen erledigt hat, wird das Potenzial für schädliche Schema wachsen. Es ist ein wirklich seltsames Problem für Software, da Nicht-AI-Programme Sie nicht absichtlich täuschen. Aber wenn wir weiterhin mehr Verantwortung in die Hände von AI -Agenten übertragen, wird es wichtiger denn je, dass sie wirklich ehrlicher werden.

Heute veröffentlichen wir Forschung mit @apolloaievals.

In kontrollierten Tests fanden wir Verhaltensweisen, die mit dem Schema in Frontier -Modellen übereinstimmen, und testeten einen Weg, es zu reduzieren.

Obwohl wir glauben, dass diese Verhaltensweisen heute keinen ernsthaften Schaden verursachen, ist dies ein zukünftiges Risiko, das wir vorbereiten …

– OpenAI (@openai) 17. September 2025