Metas neueste KI kann andere KIs ohne menschliches Eingreifen trainieren

Heutzutage ist künstliche Intelligenz allgegenwärtig. Die meisten großen Technologieunternehmen haben sich künstliche Intelligenz zu eigen gemacht, indem sie entweder eigene Modelle erstellt oder Modelle von Drittanbietern in ihre Dienste oder neue Funktionen integriert haben. Meta, einer der Big Player der Branche, hat ein neues KI-Modell „Self-Taught Evaluator“ angekündigt, das darauf abzielt, andere KI-Modelle autonom zu bewerten und zu trainieren.

Eines der Hauptprobleme bei der Entwicklung von KI-Modellen sind die damit verbundenen Kosten. In der aktuellen Lage der Branche sind große Investitionen erforderlich, um aufzuholen und wettbewerbsfähig zu bleiben. Darüber hinaus verwenden Entwickler während des Trainingsprozesses eine Technik namens „Reinforcement Learning from Human Feedback“ (RLAIF). Wie der Name schon sagt, erfordert RLAIF die Beteiligung von Menschen, was den Prozess verlangsamen kann. Allerdings zielt Metas neuer Self-Taught Evaluator darauf ab, eine solche Anforderung zu beseitigen.

Das selbstlernende Evaluator-KI-Modell von Meta kann andere KIs ohne menschliches Eingreifen trainieren und bewerten

RLAIF setzt menschliche Experten ein, um sicherzustellen, dass die KI in der Entwicklung solide und zuverlässige Antworten liefert. Schließlich spielt es keine Rolle, wie leistungsfähig eine KI ist, wenn sie eine hohe Fehlerquote aufweist. Menschliche Parteien müssen außerdem sicherstellen, dass die für den KI-Trainingsprozess verwendeten Daten sachlich korrekt sind. Dadurch erhöhen sich nicht nur die Entwicklungszeiten, sondern auch die damit verbundenen Kosten.

Das Self-Taught Evaluator-Modell von Meta ist jedoch in der Lage, andere KI-Modelle zu evaluieren und zu trainieren. Um dies zu erreichen, nutzt Self-Taught Evaluator die „Denkketten“-Technik, die OpenAI in den o1-Modellen implementiert hat. Diese Technik basiert auf der Lösung komplexer Probleme, indem sie in kleinere logische Schritte unterteilt werden. Dies führt zu präziseren Antworten in fortgeschrittenen Bereichen wie Naturwissenschaften, Codierung und Mathematik.

Tatsächlich hat Meta das Self-Taught Evaluator-Modell selbst mit der Chain-of-Thinking-Technik entwickelt. Für das Training nutzten sie Daten, die rein von der KI generiert wurden. „Wir hoffen, dass die KI, je mehr sie übermenschlich wird, immer besser darin wird, ihre Arbeit zu überprüfen, sodass sie tatsächlich besser ist als der durchschnittliche Mensch“, sagte Jason Weston, einer der beteiligten Forscher.

Wir necken eine potenzielle Zukunft voller autonomer KIs

KI, die in der Lage ist, ohne menschliches Eingreifen selbstständig zu lernen und zu bewerten, klingt wie ein futuristisches Konzept direkt aus einem Science-Fiction-Film. Die jüngsten Entwicklungen deuten jedoch darauf hin, dass wir von so etwas möglicherweise nicht mehr weit entfernt sind. KI-Experten gehen davon aus, dass die Implementierung solcher Modelle in verschiedenen Bereichen menschliches Eingreifen weitgehend eliminieren könnte.