Ihre Bluesky-Beiträge könnten gerade KI-Modelle trainieren

Die Popularität von Bluesky ist in den letzten Wochen sprunghaft angestiegen. Inmitten eines „Exodus“ von X/Twitter-Nutzern fanden Millionen in Bluesky die ideale Alternative. Da die Plattform als Konkurrent von Twitter konzipiert ist, ist sie hinsichtlich der Kernfunktionalität recht ähnlich. Es scheint jedoch, dass die Bedingungen von BlueSky in Bezug auf KI und Datenschutz nicht so gut sind, wie viele erwartet haben.

Eine der Änderungen in X, die eine Benutzermigrationskampagne auslöste, hängt mit künstlicher Intelligenz zusammen. Die neuen Nutzungsbedingungen ermöglichen es der Plattform von Elon Musk, ihre KI-basierten Entwicklungen mit Benutzerbeiträgen zu trainieren. Während dies vielen vielleicht egal ist, gibt es andere – etwa Künstler –, die die neue Politik mit Sorge betrachten.

Allerdings scheinen Ihre Beiträge auf Bluesky nicht so sicher für die Verwendung im KI-Training zu sein. Bemerkenswert ist, dass sich die soziale Plattform dazu verpflichtet hat, dies nicht zu tun. Diese Aussage beruhigte die Menschen, die X aus genau diesem Grund verlassen haben. Obwohl Bluesky die KI nicht auf Ihre Inhalte trainiert, hindert nichts Dritte daran, dies zu tun.

Der Ursprung der Kontroverse: Millionen von Bluesky-Beiträgen, die für das KI-Training verfügbar sind

Letzte Woche teilte Daniel van Strien, Bibliothekar für maschinelles Lernen bei Hugging Face, einen Datensatz bestehend aus einer Million Bluesky-Beiträgen und löste damit eine Kontroverse aus. Falls Sie es nicht wissen: Hugging Face ist eine Open-Source-Bibliotheksplattform für maschinelles Lernen. Das heißt, die Datensätze stehen zur kostenlosen Nutzung zur Verfügung, inklusive KI-Training.

Natürlich wurde die Nachricht von den Nutzern, die gezielt zu Bluesky wechselten, um der freizügigen Politik in Bezug auf das KI-Training zu entgehen, nicht gut aufgenommen. Stunden nach der Gegenreaktion entfernte Daniel van Strien den Datensatz und entschuldigte sich öffentlich. „Obwohl ich die Tool-Entwicklung für die Plattform unterstützen wollte, erkenne ich, dass dieser Ansatz gegen die Grundsätze der Transparenz und Einwilligung bei der Datenerfassung verstößt. Ich entschuldige mich für diesen Fehler“, sagte er.

Eines der Merkmale, das Bluesky von anderen Plattformen unterscheidet, ist seine dezentrale Natur. Dies hat Vorteile, beispielsweise eine größere Kontrolle des Einzelnen über seine Inhalte. Dies bedeutet jedoch auch, dass Beiträge in einem öffentlichen Feed verfügbar sind. Dritte haben also vollen Zugriff darauf, einschließlich der Profile der Benutzer, die sie gepostet haben.

Wenn es sich bei den Dritten um Fachleute wie Forscher handelt, befolgen sie in der Regel ethische Richtlinien für den Umgang mit Datensätzen. Sie anonymisieren beispielsweise jeden Beitrag, sodass er niemandem zugeordnet werden kann. Sie bieten Benutzern auch die Möglichkeit, die Entfernung ihrer Inhalte aus dem Datensatz zu beantragen. Wie viele jedoch wissen, ist das Internet voller Trolle.

Es entstanden weitere Datensätze mit Millionen von BlueSky-Beiträgen

Als wir die Reaktion der Bluesky-Benutzer auf den ursprünglichen Beitrag von Daniel van Strien sahen, entstanden schnell neue Datensätze mit Millionen von Beiträgen der sozialen Plattform. In den Beschreibungen der Datensätze auf Hugging Face wird häufig explizit darauf hingewiesen, dass diese für das KI-Training verwendet werden können. Das wird doch diejenigen nur noch mehr verärgern, die sich über den ersten geteilten Datensatz aufgeregt haben, oder?

Die Erhebung von Drittdaten folgte keinen professionellen Richtlinien. Das bedeutet, dass öffentlich verfügbare Datensätze nicht nur die Beiträge, sondern auch die Spitznamen der Personen enthalten, die sie erstellt haben. Die Situation eskalierte so weit, dass der größte bisher entdeckte Datensatz fast 300 Millionen Beiträge von Nutzern des Konkurrenten von X umfasst.

Alpine Dale, eine Tochtergesellschaft von PygmalionAI, gab bekannt, dass er einen Datensatz mit zwei Millionen Beiträgen zusammengestellt hat. PygmalionAI ist ein LLM, das besonders bei Nutzern von rollenspielorientierten Chatbots beliebt ist. Dieser Datensatz wurde noch nicht geteilt, aber in der Beschreibung auf der Website heißt es: „könnte verwendet werden für: Training und Test von Sprachmodellen für Social-Media-Inhalte; Analysieren von Social-Media-Posting-Mustern; Untersuchung von Gesprächsstrukturen und Antwortnetzwerken; Forschung zur Moderation von Social-Media-Inhalten; Aufgaben zur Verarbeitung natürlicher Sprache unter Verwendung von Social-Media-Daten”

Da ist auch Alim Maasoglu, ein Individuum „widmet sich der Entwicklung immersiver Produkte im Bereich der künstlichen Intelligenz.“ In der Beschreibung seines Datensatzes auf Hugging Face, der etwa acht Millionen Bluesky-Beiträge umfasst, heißt es: „Ziel ist es, Forschern und Entwicklern eine umfassende Stichprobe realer Social-Media-Daten für Analysen und Experimente zur Verfügung zu stellen.“ In der Beschreibung wird auch erwähnt, dass es sich bei dem Datensatz um „Anbau„Es wird also mit der Zeit größer.

Der größte hat fast 300 Millionen Beiträge

Allerdings kommt nichts davon dem Hugging Face-Benutzer nahe, der den Spitznamen GAYSEX trägt und offensichtlich die Absicht hat, zu trollen. Ihr Datensatz umfasst nicht mehr und nicht weniger als 298 Millionen Beiträge von Bluesky-Benutzern.

Die Beschreibung des GAYSEX-Datensatzes zeigt auf ironische Weise ihre Absichten. „NEIN, das kannst du nicht!‘ Dann poste nicht. Wenn Sie nicht aufgezeichnet werden möchten, veröffentlichen Sie es nicht. „Aber ich habe XYZ gemacht!!“ Dann tun Sie es nicht. Sehen. Heutzutage bleibt fast alles im Internet im Internet. Besonders große soziale Netzwerke. Vielleicht möchten Sie darüber nachdenken, einen Blog zu starten. Diese haben geringere Chancen, für das KI-Training ausgewählt zu werden. Außerdem gibt es zusätzliche Möglichkeiten, Blogs vor aggressivem Scraping zu schützen“, heißt es.

Obwohl dieser Datensatz die meisten Bluesky-Beiträge enthält, ist er ironischerweise auch am wenigsten nützlich für das Training von KI-Modellen. Der Benutzer hat die Daten ohne große Sorgfalt, Ordnung oder Organisationsstruktur gecrackt. Im Grunde ging es ihnen einfach darum, so viele Beiträge wie möglich zu sammeln. Sie wollten lediglich die zuvor geteilten Datensätze weit übertreffen und die Bluesky-Leute noch mehr verärgern. Dieser Datensatz ist „zu ungefiltert, daher wird es noch viel zu tun geben“, um es für das KI-Training geeignet zu machen.

Die aktuellen Datenschutzgesetze können daran nichts ändern

Laut Samantha Coles Bericht über 404 Media sind auf Hugging Face mindestens sechs Datensätze mit Millionen von Beiträgen von Bluesky-Benutzern öffentlich verfügbar. Darüber hinaus scheinen die aktuellen Datenschutzgesetze nicht in der Lage zu sein, dies zu verhindern. Cole beriet die Situation mit Neil Brown, einem auf die Datenschutz-Grundverordnung (DSGVO) spezialisierten Anwalt. „Die bloße Verarbeitung personenbezogener Daten von Personen in der EU bedeutet nicht, dass die Person, die diese Verarbeitung durchführt, der EU-DSGVO unterliegt“, erklärte Brown.

Ob ähnliche Handlungen der DSGVO unterliegen, hängt davon ab, was eine bestimmte Organisation oder Einzelperson mit den Daten macht. Die bloße Veröffentlichung des Datensatzes berechtigt nicht zur Einleitung eines DSGVO-basierten Rechtsverfahrens. Die Verarbeitung der Daten“müsste in seinen (DSGVO) materiellen und territorialen Geltungsbereich fallen“ dafür, fügt Cole hinzu. Von „materielle und territoriale Geltungsbereiche„Sie bezieht sich nicht nur darauf, was jemand mit dem Datensatz macht, sondern auch auf die Region, in der er es tut.“