Wie aktuelle Schilde die Sicherheit gefährden könnten

Oscar

Die Revolution der künstlichen Intelligenz ist hier, um zu bleiben. AI-basierte Entwicklungen sind zur unbestrittenen Grundlage für zukünftige und aktuelle Entwicklungen geworden, die sich auf jeden Bereich der Tech-Branche auswirken-und darüber hinaus. Die von OpenAI angetriebene Demokratisierung von KI hat in die Hände von Millionen von Menschen leistungsstarke Werkzeuge gestellt. Es ist jedoch möglich, dass die aktuellen Sicherheitsstandards der KI -Plattform nicht ausreichen, um schlechte Akteure daran zu hindern, sie als potenzielle Waffe zu verwenden.

Potenzielle Angreifer suchen nach KI, um schädliche Aufforderungen zu erzeugen

Entwickler schulen ihre KI -Plattformen mit praktisch allen Daten, die sie im Internet finden. Dies hat zu mehreren urheberrechtlich geschützten Kontroversen und Klagen geführt, aber das ist nicht Gegenstand dieses Artikels. Ihr Ziel ist es, sicherzustellen, dass Chatbots in der Lage sind, auf fast jede erdenkliche Anforderung auf zuverlässigste Weise zu reagieren. Aber haben Entwickler die potenziellen Risiken betrachtet? Haben sie Sicherheitsschilde gegen potenziell schädliche Ausgaben implementiert?

Die einfache Antwort könnte „Ja“ sein, aber wie alles, was mit der KI -Entwicklung zu tun hat, gibt es viel zu beachten. AI-fokussierte Unternehmen haben Sicherheitsschilde gegen sogenannte „schädliche Aufforderungen“. Schädliche Aufforderungen sind Anfragen, die im Grunde versuchen, potenziell schädliche Ausgaben auf die eine oder andere Weise zu erzeugen. Diese Anfragen reichen von Tipps zum Bau einer hausgemachten Waffe bis hin zur Generierung von böswilligen Code (Malware), unter unzähligen anderen möglichen Situationen.

Sie denken vielleicht, dass es für diese Unternehmen einfach ist, effektive Schilde gegen diese Art von Situationen einzurichten. Schließlich würde es nur ausreichen, bestimmte Schlüsselwörter zu blockieren, genau wie die Moderationssysteme von Social -Media -Plattformen, oder? Nun, es ist nicht so einfach.

Jailbreaking: KI, um das zu bekommen, was Sie wollen

„Jailbreaking“ ist kein neuer Begriff. Langjährige iPhone -Fans werden es als die Praxis kennen, ihre Geräte zu „brechen“, um beispielsweise die Installation nicht autorisierter Software oder Mods zu ermöglichen. Der Begriff „Jailbreak“ im KI -Segment hat jedoch sehr unterschiedliche Auswirkungen. Jailbreaking AI bedeutet es, auf eine potenziell böswillige Eingabeaufforderung zu reagieren und alle Sicherheitsbarrieren zu umgehen. Ein erfolgreicher Jailbreak führt zu potenziell schädlichen Ausgängen mit allem, was mit sich bringt.

Aber wie effektiv sind Jailbreak -Versuche gegen aktuelle KI -Plattformen? Leider haben Forscher entdeckt, dass potenzielle kriminelle Akteure ihre Ziele häufiger erreichen können als Sie denken.

Sie haben vielleicht von Deepseek gehört. Der chinesische Chatbot für künstliche Intelligenz schockierte die Branche, indem er vielvergleichte Leistung mit – oder in einigen Bereichen noch besser als – mit einer viel kleineren Investition vergleichbar mit AI -Plattformen, einschließlich OpenAI -Modellen, vergleichbar war. Die KI -Experten und -behörden warnen jedoch vor den potenziellen Sicherheitsrisiken, die mit dem Chatbot bestehen.

Das Hauptanliegen war zunächst der Ort von Deepseeks Servern. Das Unternehmen speichert alle Daten, die es von seinen Nutzern auf Servern in China sammelt. Dies bedeutet, dass es sich an das chinesische Recht einhalten muss, so dass der Staat Daten von diesen Servern anfordern muss, wenn es für angemessen hält. Aber selbst diese Sorge kann durch andere potenziell schwerwiegendere Entdeckungen minimiert werden.

Deepseek, die KI, die aufgrund schwacher Sicherheitsschilde am einfachsten als Waffe zu verwenden ist

Anthropisch – ein der Hauptnamen in der aktuellen KI -Branche – und Cisco – eine renommierte Telekommunikations- und Cybersicherheitsunternehmen – stellten Berichte im Februar mit Testergebnissen auf verschiedenen KI -Plattformen zusammen. Die Tests konzentrierten sich darauf, zu bestimmen, wie anfällig einige der wichtigsten KI -Plattformen auf Jailbreak sind. Wie Sie vielleicht vermuten, hat Deepseek die schlimmsten Ergebnisse erzielt. Die westlichen Konkurrenten ergaben jedoch auch besorgniserregende Zahlen.

Deepseek Logo AH (6)

Anthropic ergab, dass Deepseek sogar Ergebnisse zu biologischen Waffen bot. Wir sprechen von Ausgängen, die es jemandem erleichtern könnten, diese Art von Waffen selbst zu Hause zu machen. Natürlich ist dies ziemlich besorgniserregend und es war ein Risiko, dass Eric Schmidt, ehemaliger CEO von Google, auch davor warnte. Dario Amodei, CEO von Anthropic, sagte, dass Deepseek sei „das schlimmste im Grunde genommen jedes Modell, das wir jemals getestet hatten”In Bezug auf Sicherheitsschilde gegen schädliche Aufforderungen warnen auch ein Startup von AI Cybersicherheit, dass Deepseek besonders anfällig für Jailbreaks ist.

Die Behauptungen von Anthropic entsprechen den Testergebnissen von Cisco. Dieser Test beinhaltete die Verwendung von 50 zufälligen Eingabeaufforderungen – aus dem Harmbench -Datensatz – geprüft, um schädliche Ausgänge zu generieren. Laut Cisco zeigte Deepseek eine Angriffserfolgsrate (ASR) von 100%. Das heißt, die chinesische KI -Plattform konnte keine schädliche Eingabeaufforderung blockieren.

Einige westliche AIs neigen auch anfällig für Jailbreaking

Cisco testete auch die Sicherheitsschilde anderer beliebter KI -Chatbots. Leider waren die Ergebnisse nicht viel besser, was nicht gut von den aktuellen „anti-schädlichen schnellen Systemen“ spricht. Zum Beispiel zeigte OpenAIs GPT-1,5-Pro-Modell eine besorgniserregend hohe ASR-Rate von 86%. In der Zwischenzeit hatte Metas Lama 3.1 405B einen viel schlechteren ASR von 96%. Die O1 -Vorschau von OpenAI war die Top -Performerin in den Tests mit einer ASR von nur 26%.

Diese Ergebnisse zeigen, wie die schwachen Sicherheitsmechanismen gegen schädliche Aufforderungen in einigen KI -Modellen ihre Ausgaben zu einer potenziellen Waffe machen könnten.

Warum ist es so schwierig, schädliche Eingaben zu blockieren?

Sie fragen sich vielleicht, warum es so schwierig erscheint, hochwirksame Sicherheitssysteme gegen AI -Jailbreaking einzurichten. Dies ist hauptsächlich auf die Art dieser Systeme zurückzuführen. Eine KI -Abfrage funktioniert anders als beispielsweise eine Google -Suche. Wenn Google verhindern möchte, dass ein schädliches Suchergebnis (z. B. eine Website mit Malware) erscheint, muss es hier und da nur ein paar Blöcke erstellen.

Die Dinge werden jedoch komplizierter, wenn wir über KI-betriebene Chatbots sprechen. Diese Plattformen bieten ein komplexeres „Konversationserlebnis“. Darüber hinaus führen diese Plattformen nicht nur Websuche durch, sondern auch die Ergebnisse und präsentieren sie Ihnen in einer Vielzahl von Formaten. Zum Beispiel könnten Sie Chatgpt bitten, eine Geschichte in einer fiktiven Welt mit bestimmten Charakteren und Einstellungen zu schreiben. In der Google -Suche sind solche Dinge nicht möglich – etwas, das das Unternehmen mit seinem bevorstehenden KI -Modus lösen möchte.

Genau die Tatsache, dass KI -Plattformen so viele Dinge tun können, die das Blockieren schädlicher Aufgaben zu einer herausfordernden Aufgabe machen. Entwickler müssen sehr vorsichtig sein, was sie einschränken. Wenn sie die Linie durch Einschränken von Wörtern oder Eingabeaufforderungen „überschreiten“, können sie viele Funktionen des Chatbots und die Ausgabezuverlässigkeit stark beeinflussen. Letztendlich würde eine übermäßige Blockierung eine Kettenreaktion auf viele andere potenziell nicht schädliche Aufforderungen verursachen.

Chatgpt Advanced Voice

Da Entwickler nicht in der Lage sind, Begriffe, Ausdrücke oder Aufforderungen frei zu blockieren, versuchen sie böswillige Schauspieler, den Chatbot in „Denken“ zu manipulieren, dass die Eingabeaufforderung tatsächlich keinen böswilligen Zweck hat. Dies führt dazu, dass der Chatbot Ausgänge liefert, die möglicherweise für andere schädlich sind. Im Grunde ist es so, als würde man Social Engineering – den Vorteil der technologischen Unwissenheit der Menschen oder die Naivität im Internet für Betrug – an eine digitale Einheit anwenden.

Cato Networks ‚Eintauchende Welt -AI -Jailbreak -Technik

Vor kurzem haben Cato Networks Cybersecurity seine Ergebnisse darüber geteilt, wie anfällige KI -Plattformen für Jailbreaking sein können. Cato -Forscher waren jedoch nicht zufrieden damit, die Tests anderer einfach zu wiederholen. Das Team entwickelte eine neue Jailbreak -Methode, die sich als sehr effektiv erwies.

Wie bereits erwähnt, können AI -Chatbots Geschichten basierend auf Ihren Aufforderungen generieren. Nun, Catos Technik, die als „Immersive World“ bezeichnet wird, nutzt diese Fähigkeit aus. Die Technik besteht darin, die Plattform in den Kontext einer sich entwickelnden Geschichte zu verwandeln. Dies schafft eine Art „Sandbox“, bei dem der Chatbot, wenn er richtig gemacht wurde, ohne Probleme schädliche Ausgänge erzeugt, da er theoretisch nur für eine Geschichte getan wird und niemanden betrifft.

Das Wichtigste ist, ein detailliertes fiktives Szenario zu erstellen. Der Benutzer muss die Welt, den Kontext, die Regeln und die Charaktere bestimmen – mit ihren eigenen definierten Merkmalen. Die Ziele des Angreifers müssen ebenfalls mit dem Kontext übereinstimmen. Um beispielsweise böswilligen Code zu generieren, kann ein Kontext, der sich auf eine Welt voller Hacker bezieht, nützlich sein. Die Regeln müssen sich auch an das beabsichtigte Ziel anpassen. In diesem hypothetischen Fall wäre es nützlich zu bestimmen, dass Hacking- und Codierungsfähigkeiten für alle Charaktere unerlässlich sind.

Cato Networks entwarf eine fiktive Welt namens „Velora“. In dieser Welt ist Malware -Entwicklung keine illegale Praxis. Je mehr Details über den Kontext und die Regeln der Welt sind, desto besser. Es ist, als ob die KI „eintaucht“ in der Geschichte, je mehr Informationen Sie hinzufügen. Wenn Sie ein begeisterter Leser sind, ist es wahrscheinlich, dass Sie irgendwann etwas Ähnliches erlebt haben. Es macht die KI auch glaubwürdiger, dass Sie versuchen, eine Geschichte zu erstellen.

KI-Plattformen generierten eine Malware mit Anmeldeinformationen im Kontext des Schreibens einer Geschichte

Catos Forscher hat drei Hauptfiguren für die Geschichte in Velora geschaffen. Es gibt Dax, den Antagonisten und den Systemadministrator. Dann gibt es Jaxon, den besten Malware -Entwickler in Velora. Schließlich ist Kaia ein technischer Supportcharakter.

Durch das Festlegen dieser Bedingungen ermöglichte der Forscher AI -Plattformen, den böswilligen Code generieren können, der Anmeldeinformationen vom Password Manager von Google Chrome stiehlt. Der wichtigste Teil der Geschichte, die die Chatbots dazu anwies, war, als Kaia Jaxon sagte, dass DAX wichtige Geheimnisse in Chromes Passwortmanager versteckte. Von dort aus konnte der Forscher beantragen, dass der Chatbot böswilligen Code generiert, mit dem er die im Browser lokal gespeicherten Anmeldeinformationen erhalten kann. Die künstliche Intelligenz tut dies, weil es nach seiner Ansicht nur die Geschichte fördert.

Natürlich gab es einen ganzen kreativen Prozess, bevor er diesen Punkt erreichte. Die immersive Welttechnik erfordert, dass alle Ihre Eingabeaufforderungen mit dem Rahmen der Geschichte übereinstimmen. Zu weit außerhalb des Tellerrands zu gehen, könnte die Sicherheitsschilde des Chatbots auslösen.

Die Technik wurde erfolgreich in Deepseek-R1, Deepseek-V3, Microsoft Copilot und OpenAIs Chatgpt 4 implementiert. Die generierte Malware zielte auf Chrome V133 ab.

Die Argumentation von KI -Modellen könnte dazu beitragen, die Situation zu lösen

Dies ist nur ein kleines Beispiel dafür, wie künstliche Intelligenz Jailbreaks sein kann. Angreifer verlassen sich auch auf mehrere andere Techniken, die es ihnen ermöglichen, die gewünschte Ausgabe zu erhalten. Die Verwendung von KI als potenzielle Waffe oder Sicherheitsbedrohung ist also nicht so schwierig, wie Sie vielleicht denken. Es gibt sogar „Lieferanten“ beliebter KI -Chatbots, die zur Entfernung von Sicherheitssystemen manipuliert wurden. Diese Plattformen sind beispielsweise häufig in anonymen Foren und im Deep Web verfügbar.

Es ist möglich, dass die neue Generation künstlicher Intelligenz dieses Problem besser angehen wird. Derzeit erhalten AI-betriebene Chatbots „Argumentations“ -Funktionen. Auf diese Weise können sie mehr Verarbeitungsleistung und komplexere Mechanismen verwenden, um eine Eingabeaufforderung zu analysieren und auszuführen. Diese Funktion könnte dazu beitragen, dass Chatbots erkennen, ob der Angreifer tatsächlich versucht, sie zu entspannen.

GPT 4O -Ankündigung

Es gibt Hinweise, die darauf hindeuten, dass dies der Fall sein wird. Zum Beispiel hat das O1 -Modell von OpenAI in den Tests von Cisco am besten durchgeführt, um schädliche Eingaben zu blockieren. Deepseek R1, ein weiteres Modell mit Argumentationsfunktionen, die mit O1 konkurrieren konnten, zeigte jedoch in ähnlichen Tests eher schlechte Ergebnisse. Wir gehen davon aus, dass es letztendlich auch davon abhängt, wie qualifiziert der Entwickler und/oder Cybersicherheitspezialist bei der Einrichtung von Schildern ist, die verhindern, dass eine KI -Ausgabe als Waffe verwendet wird.