„Wir haben die verfügbaren Daten für das KI-Training erschöpft“, sagt Elon Musk

Es ist noch nicht allzu lange her, dass künstliche Intelligenz die Technologiebranche erobert hat. ChatGPT löste eine Revolution aus, die in nur wenigen Jahren enorme Fortschritte gebracht hat. Während dieser Zeit nutzten KI-orientierte Unternehmen öffentlich verfügbare Daten, um ihre Modelle zu trainieren. Einige prominente Persönlichkeiten auf diesem Gebiet, wie etwa Elon Musk, glauben jedoch, dass die Branche alle verfügbaren Daten für das KI-Training ausgeschöpft hat.

Elon Musk und andere Experten sagen, dass die Branche die KI-Trainingsdaten erschöpft hat

Das Training komplexer KI-Modelle erfordert riesige Datenmengen. Viele könnten denken, dass es lange dauern würde, bis Unternehmen alle weltweit verfügbaren Daten nutzen würden. Experten behaupten jedoch, dass der Moment nahe sei. Ilya Sutskever, ein ehemaliger OpenAI-Chefwissenschaftler, nahm im Dezember an der auf maschinelles Lernen ausgerichteten NeurIPS-Konferenz teil. Während der Veranstaltung erklärte Sutskever, dass die KI-Branche bereits das sogenannte „Spitzendaten.“

Damit sind wir nach Meinung des Wissenschaftlers praktisch auf dem Höhepunkt, was die Nutzung von Daten zum Training von KI angeht. Es gibt nur noch sehr wenige ungenutzte Daten, was einen Paradigmenwechsel in der Entwicklung von KI-Modellen erzwingen wird. Passend dazu sagte Elon Musk während eines Livestream-Gesprächs mit dem Stagwell-Vorsitzenden Mark Penn: „Wir haben jetzt im Grunde die Gesamtheit des menschlichen Wissens ausgeschöpft … im KI-Training.“

Musk besitzt xAI, die Abteilung von X (FKA Twitter), die sich auf die KI-Entwicklung konzentriert. Grok, ein in X integrierter KI-gestützter Chatbot und Bildgenerator, ist das beliebteste Produkt des Unternehmens. Musk behauptet, dass die Branche aufgrund seiner Erfahrung im KI-Bereich die „Spitzendaten” erwähnt von Sutskever „im Grunde letztes Jahr.“

Die Verwendung synthetischer Daten könnte die Lösung sein, allerdings mit Nuancen

Allerdings gibt es eine Möglichkeit, neue Daten für das KI-Training zu erhalten. Einige große KI-Unternehmen nutzen bereits seit einiger Zeit synthetische Daten als Teil des Trainings ihrer eigenen Modelle. Bei synthetischen Daten handelt es sich grundsätzlich um Daten, die von anderen KI-Modellen generiert werden. „Die einzige Möglichkeit, (reale Daten) zu ergänzen, sind synthetische Daten, bei denen die KI (Trainingsdaten) erstellt.“ sagte Musk. „Mit synthetischen Daten … wird sich (KI) gewissermaßen selbst bewerten und diesen Prozess des Selbstlernens durchlaufen“, fügte er hinzu.

Das Forschungs- und Beratungsunternehmen Gartner schätzt, dass bis 2024 60 % der für KI-basierten Entwicklungen verwendeten Daten synthetisch sind. Die Liste umfasst Projekte wie Microsofts Phi-4, Googles Gemma, Sonnets Claude 3.5 und sogar Metas Llama.

Allerdings sollten Entwickler vorsichtig sein, wenn sie diese Art von Daten in großem Umfang verwenden. Ein übermäßiger Einsatz synthetischer Daten kann zu einer erhöhten Verzerrung führen, was die Kreativität des Modells verringert. Dies kann sich auf die Qualität der Ausgabe einer KI-Plattform auswirken. Andererseits führt die Verwendung synthetischer Daten zu enormen Kosteneinsparungen.