Bei Premium-Publishern wurden die Daten häufiger erfasst, als wir dachten

Ein wichtiges Thema im Bereich KI ist die Art und Weise, wie KI-Unternehmen Daten sammeln, um ihre Modelle zu trainieren. Unternehmen wie die New York Times verklagen OpenAI und Microsoft, weil sie deren Inhalte gecrackt haben, um ChatGPT zu trainieren. Während diese Unternehmen den Großteil ihrer Daten aus öffentlich zugänglichen Quellen beziehen, scheinen sie Daten von mehr Premium-Publishern zu beziehen, als wir denken.

KI-Unternehmen, die Pay-Walled-Inhalte zum Trainieren ihrer Modelle nutzen, befinden sich immer noch in einer rechtlichen Grauzone. Es ist umstritten, ob es sich technisch gesehen um eine Urheberrechtsverletzung handelt. Wenn der betreffende Chatbot ganze Abschnitte der kostenpflichtigen Inhalte wiedergibt, könnte das Anlass für eine Klage sein. Dies ist ein Grund für die Klage der New York Times. Das ist auch der Grund, warum KI-Unternehmen versuchen, Verträge mit so vielen Verlagen abzuschließen. Dies dient unter anderem dazu, rechtliche Probleme zu vermeiden. Das einzige Problem besteht darin, dass diese KI-Unternehmen höchstwahrscheinlich Pay-Walled-Daten abgegriffen haben, lange bevor die Veröffentlichungen davon erfuhren.

KI-Unternehmen sammeln mehr Daten von Premium-Publishern, als viele denken

Ein neuer Bericht von Ziff Davis (via Axios) hat gerade etwas Licht darauf geworfen, wie viel Premium-Content-KI-Unternehmen abgekratzt haben. Für den Bericht analysierten die Co-Autoren George Wukoson und Joey Fortuna mehrere LLMs und die Inhalte, die zu ihrer Ausbildung verwendet wurden. Sie fanden heraus, dass ein großer Teil der Daten, die zum Trainieren einiger der größten Modelle verwendet wurden, aus 15 Premium-Publikationen stammte.

Ein wichtiges Beispiel war GPT-2, das von OpenAI trainiert wurde. Die Forscher verwendeten eine Open-Source-Replik des OpenWebText-Datensatzes, die OpenAI zum Trainieren des Modells verwendete. Sie fanden heraus, dass etwa 10 % der Informationen in diesem Datensatz von Premium-Websites stammten. Andere Datensätze, die zum Trainieren älterer Modelle verwendet wurden, nutzten ebenfalls eine Menge Daten von Premium-Websites.

Das bedeutet, dass einige der älteren LLMs (wahrscheinlich Modelle, die nie benutzerorientierte Chatbots betrieben) aus einer erheblichen Menge an Informationen von Premium-Websites bestanden. Obwohl dies der Fall ist, stellte der Bericht fest, dass einige dieser älteren Datensätze immer noch zum Trainieren neuer Modelle verwendet werden. Das bedeutet, dass Models weiterhin Pay-Wall-Material verwenden könnten.

Während also mehrere Veröffentlichungen Geschäfte mit KI-Unternehmen abgeschlossen haben, nutzen die KI-Modelle, die viele der leistungsstärksten Chatbots auf dem Markt antreiben, immer noch Informationen aus kostenpflichtigen Inhalten.