Warum selbst fortgeschrittene KI an der grundlegenden Logik scheitert: Neue Forschungsergebnisse

Einer modernen KI bei der Arbeit zuzusehen, kann sich anfühlen, als würde man Zeuge eines Zaubertricks werden. Ob Gemini, ChatGPT oder Claude, diese Modelle strahlen oft eine Aura nahezu unendlicher Weisheit aus, lösen komplexe Codierungsprobleme oder schreiben Gedichte in Sekundenschnelle. Neue Forschungen von Wissenschaftlern an Stanford, Caltech und dem Carleton College legen jedoch nahe, dass sich unter der brillanten Oberfläche des KI-Modells einige überraschend tiefe Risse befinden, die dazu führen, dass selbst die grundlegende Logik versagt.

Die Studie zeigt, dass selbst die fortschrittlichsten Large Language Models (LLMs) häufig grundlegende Tests zum logischen Denken nicht bestehen, mit denen ein kleines Kind umgehen kann (via Popular Mechanics). Wir behandeln diese Systeme oft so, als ob sie „denken“ würden. Die Realität ist jedoch, dass sie auf komplexer Mathematik und miteinander verknüpften Mustern basieren. Mit diesem Ansatz können sie das nächste Wort in einem Satz mit erstaunlicher Genauigkeit erraten, aber das bedeutet nicht, dass sie die Logik hinter dem, was sie sagen, wirklich „verstehen“.

Der KI fehlt die „Theory of Mind“ des menschlichen Gehirns, was dazu führt, dass die logische Mathematik versagt

Einer der interessantesten Teile der Forschung hat mit sozialer Intelligenz zu tun. Menschen lernen soziale Regeln und moralische Nuancen durch jahrelange subtile Erfahrungen in der realen Welt. KI hingegen verfügt nicht über das, was Wissenschaftler eine „Theory of Mind“ nennen. Das bedeutet, dass es diesen Modellen schwerfällt, Rückschlüsse auf die Gedanken einer Person zu ziehen oder Verhalten auf der Grundlage ethischer Regeln vorherzusagen. Die Forscher sagen, dass die KI aufgrund des Fehlens eines zuverlässigen moralischen Kompasses nicht bereit ist, wichtige Entscheidungen zu treffen, die ein menschenähnliches Urteilsvermögen erfordern.

Das Scheitern erstreckt sich auch auf die Welt der Mathematik und der formalen Logik. Man könnte doch erwarten, dass ein Computer perfekt in Mathe ist, oder? Nun, die Studie zeigt, dass LLMs mit „trivialer“ Logik zu kämpfen haben, etwa mit der Erkenntnis, dass, wenn A gleich B ist, dann B gleich A sein muss. Sie leiden auch unter Vorurteilen, etwa wenn sie dem ersten Element einer Liste viel zu viel Bedeutung beimessen. Dies spiegelt menschliche Fehler wider, jedoch ohne unsere natürliche Fähigkeit zu erkennen, wenn sich etwas „nicht richtig“ anfühlt.

Sogar das physikalische Denken stellt eine Herausforderung dar. Wenn die Modelle aufgefordert werden, Aufgaben im dreidimensionalen Raum zu planen oder Roboterbewegungen zu steuern, verlieren sie häufig den Überblick über den Plan, wenn die Aufforderung etwas anders formuliert wird. Dies zeigt, dass die KI eher auf kurzfristige Datenmuster als auf ein solides, langfristiges Verständnis der Funktionsweise der physischen Welt angewiesen ist.

Eine notwendige Aufschlüsselung, um KI wirklich zu verstehen

Trotz dieser Erkenntnisse behaupten die Wissenschaftler nicht, dass die KI ein Misserfolg ist. Stattdessen betrachten sie diese Schwachstellen als notwendigen Fahrplan für die Zukunft. Das Erkennen, wo die Technologie bricht, ist der erste Schritt zum Aufbau widerstandsfähigerer Systeme. So wie die frühe Computertechnik eine strenge Fehleranalyse erforderte, um zuverlässig zu werden, muss sich die heutige KI der gleichen Prüfung unterziehen, um nicht mehr nur eine „pikante Autovervollständigung“ zu sein, sondern ein wirklich intelligenter Partner zu werden. Schließlich haben die KI-Systeme von vor ein paar Jahren mit den aktuellen nichts mehr zu tun.

Dabei geht es nicht darum, skeptisch zu sein und ständig zu schreien: „KI ist schlecht“, sondern darum, die aktuellen Grenzen der Technologie zu erkennen. Für den richtigen Einsatz unserer Werkzeuge ist es von grundlegender Bedeutung, genau zu wissen, was unsere Werkzeuge können und was nicht. Im Grunde ist es der gleiche Ansatz, den wir auch bei unseren realen Tools verfolgen. Warum also nicht dieses Verhalten auch bei unseren „digitalen Partnern“ widerspiegeln?