Microsoft führt PyRIT ein, um Red-Teaming-KI-Modelle zu optimieren

Eines der größten Probleme bei KI besteht darin, Ergebnisse zu erzielen, die für bestimmte Personen schädlich oder beleidigend sind. KI ist mehr als in der Lage, viele Gruppen von Menschen aus der Fassung zu bringen, aber hier kommt Red Teaming ins Spiel. Microsoft hat gerade ein neues Tool namens PyRIT veröffentlicht, das Menschen und Unternehmen bei ihrem Red Teaming helfen wird.

Im Fall von KI ist Red Teaming der Vorgang, bei dem ein KI-Modell gezwungen wird, anstößige Inhalte zu produzieren. Die Leute werden ihm unterschiedliche Aufforderungen stellen und ihr Bestes geben, um den Chatbot dazu zu bringen, etwas zu sagen, das leicht dazu führen könnte, dass ein YouTuber gekündigt wird. Sie tun dies, um die Schwachstellen des Chatbots herauszufinden und herauszufinden, wo das Unternehmen Änderungen vornehmen sollte. KI-Chatbots beziehen ihre Informationen aus dem Internet, und oft ist das Internet kein freundlicher Ort.

Microsoft hat PyRIT eingeführt, ein Tool, das Menschen beim Red Teaming helfen soll

Wie Sie sich vorstellen können, ist Red Teaming ein rein menschlicher Prozess. Es muss ein Mensch sein, um zu erkennen, ob ein Chatbot etwas Schädliches über bestimmte Personen sagt. Da Chatbots jedoch immer ausgereifter werden und mehr Informationen aufsaugen, kann Red Teaming schwieriger werden.

Nun, es scheint etwas überraschend, dass Microsoft mit seinem neuen Tool namens PyRIT (Python Risk Identification Toolkit) Feuer mit Feuer bekämpfen will. PyRIT ist ein automatisiertes Tool, das Menschen mit Red Teaming helfen kann. Ironischerweise nutzt dieses Tool maschinelles Lernen, um die von KI-Modellen generierten Ergebnisse zu ermitteln.

Daher könnten viele Leute damit Probleme haben, da es den Anschein hat, dass Microsoft KI zur Bewertung von KI verwendet. Allerdings ist es unwahrscheinlich, dass Microsoft daraus ein vollautomatisches Tool machen wird. In einem Blogbeitrag erklärte Microsoft: „PyRIT ist kein Ersatz für das manuelle Red Teaming generativer KI-Systeme.“ Stattdessen erweitert es das vorhandene Fachwissen eines KI-Red-Teamers und automatisiert die mühsamen Aufgaben für ihn.“

Es handelt sich also hauptsächlich um ein Werkzeug, das die Red-Teaming-Bemühungen unterstützen soll und nicht den menschlichen Faktor völlig aus dem Spiel nehmen soll.

Welche Funktionen bietet PyRIT?

PyRIT ist mit mehreren bestehenden Flächenmodellen kompatibel und es ist möglich, dieses Tool auch mit Bild- und Videoeingaben zu verwenden. Es ist in der Lage, wiederholte Angriffe und gefährliche Eingabeaufforderungen zu simulieren, um eine bessere Vorstellung davon zu bekommen, was dazu führen kann, dass ein Chatbot schädliche Inhalte produziert.

Das Toolkit enthält außerdem ein Punktesystem. Mithilfe von maschinellem Lernen werden die Ergebnisse des Chatbots bewertet, damit Sie besser verstehen, wie schlecht die Ergebnisse sind.

PyRIT hilft nicht nur dabei, herauszufinden, wo sich Chatbots im Hinblick auf integrative Antworten verbessern können, sondern hilft auch dabei, Cybersicherheitsrisiken zu identifizieren. Das ist großartig, denn Cybersicherheit ist ein weiteres großes Thema bei generativer KI.

Wenn Sie sich für die Verwendung von PyRIT interessieren, können Sie über den offiziellen GitHub des Projekts darauf zugreifen.