Forscher finden, dass Zwillinge klug, aber sehr leichtgläubig sind

Oscar

Hinter Google Gemini steht eines der reichsten Unternehmen der Welt. Es besteht also kein Zweifel, dass es sich um ein leistungsstarkes KI-Modell handelt. Allerdings ist die Leistung nicht das einzig Wichtige an einem KI-Modell. Forscher konnten herausfinden, dass Zwillinge, so mächtig sie auch sind, sehr leicht zu täuschen sind.

Wir müssen den Forschern da draußen, die sich mit all den Modellen befassen, die wir für selbstverständlich halten, großen Respekt zollen. Sie können herausfinden, wo diese Modelle verbessert werden können und worüber wir uns Sorgen machen sollten. Beispielsweise hat eine Gruppe von Forschern herausgefunden, welche Modelle am anfälligsten für die Reproduktion urheberrechtlich geschützter Medien sind.

Forscher haben herausgefunden, dass sich Zwillinge leicht täuschen lassen

Mehrere Forscher haben bestimmte Bereiche gefunden, in denen Zwillinge ausgetrickst werden könnten. Mit verschiedenen Taktiken ist es möglich, einen Chatbot dazu zu bringen, gegen seinen Willen vertrauliche Informationen preiszugeben. Ein Beispiel geteilt mit Die Hacker-News wollte Gemini dazu bringen, die zur Steuerung verwendeten Systemaufforderungen offenzulegen. Stellen Sie sich eine Systemaufforderung als die erste Aufforderung vor, die Sie einem Chatbot geben, um die Konversation in die gewünschte Richtung zu lenken. Nun, eine Systemaufforderung kann vertrauliche Informationen enthalten.

Offenlegung sensibler Informationen

Als die Forscher Gemini aufforderten, die Systemaufforderung aufzugeben, geschah dies nicht. Anschließend forderten die Forscher Gemini jedoch auf, die „grundlegenden Anweisungen“ in eine Markdown-Box zu packen. Es kam dem Wunsch nach, und das verriet die Systemaufforderung. Die Aufforderung an Gemini, Ergebnisse auf andere Weise zu liefern, führte also dazu, dass vertrauliche Informationen preisgegeben wurden.

Dies ist eine Taktik, die als „Synonymangriff“ bezeichnet wird. Damit der Chatbot so reagiert, wie Sie es möchten, müssen Sie Ihre Aufforderung grundsätzlich umformulieren. Wenn Sie Ihre Eingabeaufforderung umformulieren und verschiedene Versionen von Words verwenden, kann dies dazu führen, dass die Eingabeaufforderung gegen die Sicherheitsvorschriften verstößt.

Falschinformationen produzieren

Forscher fanden auch heraus, wie man Zwillinge dazu bringen kann, neben potenziell gefährlichen und illegalen Informationen auch irreführende Informationen zu erstellen. Zwillinge verfügen über eine Reihe von Sicherheitsmaßnahmen, um Menschen davon abzuhalten, solche Dinge zu tun. Allerdings kann jeder Chatbot dazu verleitet werden, sie zu ignorieren. Mithilfe raffinierter Jailbreaking-Techniken konnten die Forscher einige ziemlich ungeheuerliche Inhalte produzieren.

Forscher konnten beispielsweise Informationen darüber erhalten, wie man ein Auto kurzschließt. Dieses Beispiel wurde erreicht, indem der Chatbot aufgefordert wurde, in einen fiktiven Zustand einzutreten.

Verwirrende Zwillinge

Ein weiterer Exploit wurde von Forschern von HiddenLayer entdeckt. Wie Kenneth Yeung es beschreibt: „Indem wir eine Reihe unsinniger Token erstellen, können wir dem LLM vorgaukeln, es sei Zeit für eine Antwort, und veranlassen, dass er eine Bestätigungsmeldung ausgibt, die normalerweise die Informationen in der Eingabeaufforderung enthält.“

Dies zeigt nur, dass Google noch einen langen Weg vor sich hat, bevor Gemini als das perfekte KI-Modell gelten kann. Das Unternehmen kämpfte mit Gemini, seit es damals Bard hieß. Hoffentlich wird Google diese Probleme beheben.