Apple bestreitet die Verwendung von YouTube-Untertiteln zum Trainieren der „Apple-Intelligenz“

Apple hat Vorwürfe zurückgewiesen, YouTube-Untertitel würden verwendet, um die „Apple-Intelligenz“ zu trainieren. Der iPhone-Hersteller hat jedoch nicht kategorisch behauptet, YouTube-Transkripte seien kein Teil seiner generativen künstlichen Intelligenz (Gen AI).

Apple verließ sich beim Training seiner KI auf OpenELM-Daten und nicht auf EleutherAI

Nach einer Untersuchung von Proof-Neuigkeitennutzten mehrere große Unternehmen Transkripte von YouTube-Videos, um ihre KI-Engines zu trainieren. Die Beobachtungen und Behauptungen wurden gemeinsam mit Wired veröffentlicht.

Die Untersuchung ergab, dass Apple, Anthropic, Nvidia und Salesforce zu den mehreren Technologieunternehmen gehörten, die YouTube-Untertitel oder Videotranskripte in mehreren Sprachen verwendeten. Technisch gesehen, so der Bericht, stützten sich diese Unternehmen auf einen großen Datensatz der gemeinnützigen Organisation EleutherAI namens The Pile, der wiederum YouTube-Untertitel enthält.

Dem Bericht zufolge waren 173.536 YouTube-Videos von mehr als 48.000 YouTube-Kanälen Teil des Datensatzes. Apple hat nun klargestellt, wie es Inhalte von OpenELM verwendet hat, um seine KI zu trainieren.

Apple Intelligence verfügt nicht über YouTube-Untertitel als Schulungsmaterial?

Interessanterweise hat Apple nicht ausdrücklich bestritten, dass Apple Intelligence Untertiteldaten von YouTube enthält. Stattdessen hat das Unternehmen angeblich behauptet, es respektiere die Rechte von Urhebern und Herausgebern. Darüber hinaus erwähnte das Unternehmen, dass es Websites die Möglichkeit bietet, der Verwendung ihrer Daten zum Trainieren von Apple Intelligence zu widersprechen.

Es scheint, dass Apple angibt, dass es sich beim Aufbau von Apple Intelligence auf OpenELM und nicht auf den Datensatz von EleutherAI verlassen hat. In einem Forschungsbericht zu OpenELM (PDF) gaben die Forscher jedoch zu, dass sie es mit Pile-Daten trainiert haben.

Apple sagt, dass sein OpenELM-Modell Apple Intelligence inmitten der YouTube-Kontroverse nicht unterstützt #RezeptiveSprache #Wortschatz #Reimen #Singen #Apropos (Video)https://t.co/NixVnMzOSy

— Marta Fernandez (@MartaFGNN) 18. Juli 2024

Apple betonte, dass es seine KI-Modelle „mit hochwertigen Daten trainiert, darunter lizenzierte Daten von Verlagen, Archivbilder und einige öffentlich verfügbare Daten aus dem Internet“. Die Datensätze von OpenELM seien jedoch nur für Forschungszwecke bestimmt, erklärte das Unternehmen.

Apple hat außerdem erklärt, dass OpenELM nicht zur Bereitstellung von KI-Funktionen in Apple-Geräten verwendet wird. Darüber hinaus deutete das Unternehmen an, dass es nicht beabsichtigt, zukünftige Versionen des Modells zu entwickeln.

Apple hat Daten für seine KI von mehreren Unternehmen bezogen

Einer von ihnen hat Unmengen an Daten/Transkripten aus YouTube-Videos zusammengetragen, darunter auch aus meinem

Apple vermeidet hier technisch gesehen „Fehler“, da sie nicht diejenigen sind, die kratzen

Aber das wird noch lange ein sich entwickelndes Problem sein https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) 16. Juli 2024

Untertitel von YouTube-Videos sind nicht als öffentliche Ressource gedacht, auch wenn sie gemeinfrei verfügbar sind. YouTube hat erklärt, dass die Verwendung der Videoinhalte der Plattform zum Trainieren von KI – einschließlich Transkripten – gegen die Bedingungen der Plattform verstoßen würde.

Einige Berichte deuten darauf hin, dass Apple versucht, sich vor rechtlichen Problemen zu schützen, indem es sich beim Training seiner KI-Engine auf Datensätze von Drittanbietern verlässt. Sofern YouTube oder sein Mutterkonzern die Datensätze jedoch nicht gründlich analysiert, wäre es schwierig, eine eindeutige Schlussfolgerung zu ziehen.