Untersuchungen finden Spuren von Kindesmissbrauchsbildern in KI-Bilddatensätzen

Künstliche Intelligenz schreitet jeden Tag voran; Wir wissen das. Seine Fähigkeit, Bilder zu erzeugen, ist seit langem Gegenstand von Diskussionen. Auch in jüngster Zeit wurden solche Bilder zur Manipulation von Informationen und zur Herstellung gefälschter Medien verwendet. Um dieses Problem etwas zu lösen, hat Google das Tool „Über dieses Bild“ veröffentlicht, das die Quelle und den Hintergrund eines Bildes bereitstellt, einschließlich Metadaten, sofern zugänglich. Dieses Tool wurde erstmals während der Google I/O Developer Conference 2023 angekündigt. Jüngste Enthüllungen deuten jedoch darauf hin, dass der Trainingsdatensatz für die KI-Bildgenerierung Links zu Bildern von Kindesmissbrauch enthielt. Dies ist nicht nur problematisch, sondern angesichts der strengen weltweiten Regeln für die Verbreitung solcher Inhalte auch sehr besorgniserregend. Beispielsweise ist es aufgrund des Bundesgesetzes in den Vereinigten Staaten illegal; Bei einem Schuldspruch drohen lebenslange Haft und eine Geldstrafe von bis zu 250.000 US-Dollar.

Stanford-Forscher fanden Spuren von Kindesmissbrauchsbildern in der generativen KI

Die Forscher der Stanford University (Stanford Internet Observatory) untersuchten Datensätze zur KI-Bilderzeugung. Sie fanden heraus, dass der LAION-5B-Datensatz, der von Stability AIs Stable Diffusion und den Imagen-Bildgeneratoren von Google verwendet wird, einer Prüfung unterzogen wurde, weil er mindestens 1.679 illegale Bilder enthielt, die aus verschiedenen Social-Media-Beiträgen und namhaften Websites für Erwachsene stammten.

Ab September 2023 untersuchte eine Forschergruppe den LAION-Datensatz genau, um festzustellen, ob er unangemessene Bilder von Kindern enthielt. Zur Überprüfung der Bilder nutzten sie vor allem spezielle Codes, sogenannte „Bild-Hashes“. Anschließend verwendeten sie Tools wie PhotoDNA, um ihre Ergebnisse zu bestätigen, und auch Experten des Canadian Centre for Child Protection überprüften ihre Ergebnisse und stimmten ihnen zu.

Viele Leute glauben, dass der LAION-Datensatz tatsächliche Bilder speichert, aber das ist nicht korrekt. Stattdessen dient es als umfassender Index oder als Liste, die Benutzer dorthin führt, wo sie Bilder online finden können. Es speichert Weblinks zu diesen Bildern zusammen mit den begleitenden Textbeschreibungen.

LAION reagiert und bekräftigt seine „Null-Toleranz-Politik“.

LAION, die gemeinnützige Organisation, die den Datensatz verwaltet, teilte Bloomberg mit, dass sie eine „Null-Toleranz-Politik“ gegenüber schädlichen Inhalten verfolgt. Und sie würden die Datensätze vorübergehend offline nehmen. Als Reaktion auf denselben Bericht betonte Stability AI seine Richtlinien zur Verhinderung des Missbrauchs seiner Plattformen. Sie stellten klar, dass ihre Modelle zwar mit Teilen des LAION-5B-Datensatzes trainiert wurden. Sie haben sie jedoch unter Berücksichtigung von Sicherheitsbedenken gezielt verfeinert und angepasst.

Obwohl die Forscher Spuren von Kindesmissbrauchsbildern in den Datensätzen hervorhoben, erklärten sie, dass dies nicht unbedingt Auswirkungen auf die Ergebnisse des Modells habe. Sie warnten jedoch davor, dass weiterhin ein potenzielles Risiko bestehe, dass das Modell möglicherweise unerwünschte Informationen aus den Bildern extrahiert habe.