Meta wurde verklagt, weil das Unternehmen angeblich KI mit Inhalten aus Raubkopien trainierte

Meta ist eines der Unternehmen, die sich entschieden haben, stark auf künstliche Intelligenz zu setzen, um zu den Top-Unternehmen der Technologiebranche zu gehören. Das Unternehmen verfügt über eine eigene Serie von KI-Modellen, Llama. Wie andere Unternehmen trainierte Meta Llama mithilfe von Datensätzen mit großen Informationsmengen, die im Internet verfügbar sind. Eine Gruppe von Autoren verklagt Meta jedoch, weil sie angeblich Raubkopien von Büchern verwendet haben, um ihre KI-Modelle zu trainieren.

Autoren wie Ta-Nehisi Coates und die Komikerin Sarah Silverman (unter anderem) gehören zu der Gruppe, die behauptet, Meta habe einen Datensatz mit Inhalten aus gestohlenen Büchern verwendet. Darüber hinaus war sich der CEO des Unternehmens, Mark Zuckerberg, bewusst, dass der Datensatz Raubkopien von Büchern enthielt, bevor er seine Zustimmung zur Verwendung im Lama-Training erteilte.

Meta habe absichtlich Raubkopien von Büchern verwendet, um KI zu trainieren, heißt es in der Klage

Dokumente im Zusammenhang mit der Klage wurden Mitte dieser Woche veröffentlicht. Der bei einem kalifornischen Bundesgericht eingereichte Fall geht auf einen anderen Fall zurück, der 2023 eingereicht und letztes Jahr vom US-Bezirksrichter Vince Chhabria abgewiesen wurde. Damals behaupteten die Autoren, dass Meta AI in der Lage sei, Texte zu generieren, die ihre Urheberrechte verletzten. In der ursprünglichen Klage wurde außerdem behauptet, dass Meta AI die Urheberrechtsverwaltungsinformationen (CMI) aus dem Inhalt ihrer Bücher entfernt habe.

Die Klägergruppe möchte, dass das Verfahren wieder aufgenommen wird

Die Klägergruppe macht jedoch geltend, dass neue Erkenntnisse eine Wiederaufnahme des Verfahrens rechtfertigen. Sie sagen, dass sie Zugang zu internen Meta-Kommunikationen hatten, in denen Zuckerberg „genehmigte die Verwendung des LibGen-Datensatzes durch Meta ungeachtet der Bedenken innerhalb des KI-Führungsteams von Meta (und anderer bei Meta), dass LibGen „ein Datensatz ist, von dem wir wissen, dass er raubkopiert ist“..‘“ LibGen ist ein Datensatz für KI-Training, der eine Zeit lang im Internet verfügbar war. Es enthielt rund 32 TB Inhalt mit Schwerpunkt auf Büchern aller Art – einschließlich wissenschaftlicher Inhalte.

Die Kläger erklärten Richter Chhabria, dass die neuen Erkenntnisse nicht nur ihre früheren Ansprüche untermauern. Sie glauben sogar, dass sie möglicherweise auch eine neue Klage wegen Computerbetrugs einreichen. Der Richter wird den Klägern erlauben, ihre neuen Beweise in einer geänderten Klageschrift vorzulegen. Allerdings äußerte er auch Skepsis, dass die Klage für die Urheber erfolgreich sein könnte.