Eines der größten Themen, die die KI heute betreffen, ist das Data Scraping. Um KI-Modelle zu trainieren, müssen Unternehmen Daten aus Online-Quellen extrahieren, um sie in KI-Modelle einzuspeisen. Nun haben wir die Nachricht erhalten, dass OpenAI Unmengen an Daten von YouTube gescrapt hat. Wir haben jedoch auch die Nachricht erhalten, dass sogar Google Daten aus YouTube-Videos extrahiert hat.
Derzeit schützt YouTube die Daten auf seiner Plattform. Kürzlich warnte Neal Mohan, CEO von YouTube, OpenAI davor, seine Videos zum Trainieren von Sora zu verwenden. Dies ist der äußerst realistische KI-Videogenerator von OpenAI.
Nun, einem Bericht der New York Times zufolge hat OpenAI Daten von der riesigen Video-Sharing-Plattform abgekratzt, aber es handelte sich nicht um Videodaten. Das Unternehmen nutzte ein Tool namens „Whisper“, das Audiodaten aus YouTube-Videos automatisch transkribiert und damit das Modell trainiert. Das fragliche Modell ist GPT-4. In dem Bericht heißt es, dass OpenAI Transkripte von über einer Million YouTube-Videos durchsuchen konnte.
OpenAI argumentierte, dass es Informationen aus öffentlich zugänglichen YouTube-Videos verwende. Dies sollte also angeblich gerechtfertigt sein. Allerdings gibt YouTube an, dass das unbefugte Herunterladen oder Scrapen von YouTube-Videos verboten ist. Dies bedeutet, dass OpenAI möglicherweise gegen die Nutzungsbedingungen von YouTube verstößt. Wenn dies zu einer großen Sache wird, werden die Unternehmen mit Sicherheit irgendwann vor Gericht darüber streiten.
Google kratzt auch YouTube-Videos
In einer ziemlich großen Wendung scheint Google auch Daten aus YouTube-Videos zu extrahieren. Was es bedeutsam macht, ist die Tatsache, dass Google die Muttergesellschaft von YouTube ist. Es wirft also Fragen auf. Weiß YouTube davon? Fordert Google YouTube auf, darüber Stillschweigen zu bewahren? Wird YouTube rechtliche Schritte gegen seine Muttergesellschaft einleiten?
Diese Fragen werden noch eine ganze Weile unbeantwortet bleiben. Auf jeden Fall scheint es, dass Google eine kleine Änderung an seinen Nutzungsbedingungen vorgenommen hat. Dem Bericht zufolge ermöglicht diese Änderung dem Unternehmen, Daten aus öffentlich sichtbaren Quellen wie Google Docs, Google Sheet-Dateien, Google Maps-Rezensionen usw. zu extrahieren. Das bedeutet, dass das Unternehmen seine Datenerfassung verstärken möchte, was aber nicht der Fall ist Ein gutes Zeichen für Benutzer, die ihre Daten schützen möchten.
Die Leute lesen die Nutzungsbedingungen der Unternehmen, um zu erfahren, was mit ihren Daten passiert. Allerdings nützt es nichts, zu wissen, was mit Ihren Daten passiert, wenn die Unternehmen ihre Bedingungen einfach so ändern, dass sie sie abgreifen können.