Unternehmen, die auf generative künstliche Intelligenz (Gen AI) setzen, haben YouTube-Videotranskripte verwendet, um ihre Engines zu trainieren, heißt es in einem neuen Bericht. Mehrere beliebte YouTuber wie MrBeast und Marques Brownlee haben Bedenken geäußert und behauptet, ihre Inhalte seien Teil der riesigen Datensätze.
Untersuchung zeigt Untertitel aus über 170.000 YouTube-Videos
Laut einer Untersuchung von Proof-Neuigkeitenhaben mehrere große Unternehmen YouTube-Videos gesäubert, um ihre KI-Engines zu trainieren. Die Beobachtungen und Behauptungen wurden gemeinsam mit Wired veröffentlicht.
Die Untersuchung behauptet, dass Apple, Anthropic, Nvidia und Salesforce zu den mehreren Technologieunternehmen gehörten, die „YouTube-Untertitel“ verwendeten. Konkret haben diese Unternehmen insgesamt Untertitel aus 173.536 YouTube-Videos geklaut.
Insgesamt nutzten diese Unternehmen mehr als 48.000 YouTube-Kanäle, um ihre KI-Datensätze aufzubauen und ihre KI-Engines zu trainieren, heißt es in dem Bericht. YouTuber wie MrBeast (289 Millionen Abonnenten), MKBHD (19 Millionen Abonnenten), PewDiePie (111 Millionen Abonnenten) und viele andere haben ihre Inhalte in den Datensätzen.
Apple hat Daten für seine KI von mehreren Unternehmen bezogen
Einer von ihnen hat Unmengen an Daten/Transkripten aus YouTube-Videos zusammengetragen, darunter auch aus meinem
Apple vermeidet hier technisch gesehen „Fehler“, da sie nicht diejenigen sind, die kratzen
Aber das wird noch lange ein sich entwickelndes Problem sein https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) 16. Juli 2024
Neben YouTubern können Videos von Nachrichtenagenturen wie abc NachrichtenDie BBCUnd Die New York Times sind Teil des Datensatzes. Einfach ausgedrückt: Mehrere Technologiegiganten haben YouTube-Untertitel in ihre KI-Engines integriert.
Tool zur Bestätigung, dass KI-Unternehmen online veröffentlichte YouTube-Daten verwendet haben
Entsprechend Der Randder Datensatz mit den Untertiteln von YouTube-Videos ist Teil einer größeren Materialsammlung. Technisch gesehen stützte sich die Mehrheit der Unternehmen, die YouTube-Daten verwenden, auf den Datensatz „The Pile“ der gemeinnützigen Organisation EleutherAI. Dabei handelt es sich um eine Open-Source-Sammlung, die auch Datensätze mit Büchern, Wikipedia-Artikeln und öffentlich zugänglichen Inhalten enthält.
Um zu beweisen, dass KI-Unternehmen YouTube nutzen, um ihre Datensätze aufzubauen und ihre Engines zu trainieren, Proof-Neuigkeiten hat auch ein interaktives Nachschlagetool veröffentlicht. Jeder YouTuber oder auch die breite Öffentlichkeit kann die Daten überprüfen.
„Das ist Diebstahl“, sagte Dave Wiskus, CEO von Nebula, einem Streaming-Dienst, der teilweise seinen Entwicklern gehört, von denen einige ihre Arbeit von YouTube übernommen haben, um KI zu trainieren.“https://t.co/X34e3LuODW
— Das Distributed AI Research Institute ist auf Mastodon (@DAIRInstitute) 16. Juli 2024
Neben der offensichtlichen Frage, wie YouTuber für ihre Inhalte belohnt oder entschädigt werden können, stehen diese Unternehmen auch vor rechtlichen Problemen. YouTube gibt an, dass die Verwendung seiner Videoinhalte zum Trainieren von KI – einschließlich Transkripten – gegen die Bedingungen der Plattform verstoßen würde.
YouTube hat Berichten zufolge auf den Bericht nicht reagiert. Es ist jedoch durchaus wahrscheinlich, dass die Muttergesellschaft Google einige Schritte unternehmen wird, um die Video-Sharing-Plattform und ihre Inhaltsersteller zu schützen.
Bisher scheinen die Datensätze reine Textdaten zu enthalten. Mit anderen Worten: KI-Unternehmen könnten zum Trainieren ihrer Engines nur Videotranskripte oder Untertitel und kein Video verwenden. Übrigens enthalten die reinen Textdaten auch Live-Übersetzungen der Videos ins Japanische, Deutsche und Arabische.
Google hat zuvor zugegeben, dass es einige YouTube-Videos gelöscht hat, um seine KI-Engines zu trainieren. Der Suchgigant hat jedoch sichergestellt, dass er entsprechende Vereinbarungen mit YouTubern hat. Es versteht sich von selbst, dass EleutherAI möglicherweise nicht mit jedem der YouTuber eine solche Vereinbarung hat, deren Videos nun Teil der Datensätze sind, die von den Technologiegiganten zum Trainieren ihrer KI verwendet werden.