Texas nutzt KI-Bewertungssystem zur Bewertung staatlich vorgeschriebener Prüfungen

Die Texas Education Agency (TEA) testet in ihrem Bewertungssystem die generative künstliche Intelligenz (Gen AI). Die neue Bewertungstechnik wird Chatbots wie ChatGPT von OpenAI nutzen, um Benutzer zu verstehen und mit ihnen zu kommunizieren.

Texas wird dieses Jahr weitaus weniger menschliche Gutachter einstellen, da es diese durch ein neues KI-gestütztes Bewertungssystem ersetzt. Die STAAR-Prüfungen (State of Texas Assessments of Academic Readiness) könnten ein Prüfstein dafür sein, die Mehrheit der menschlichen Bewerter durch Gen AI zu ersetzen.

Texas trainiert das Gen-KI-Bewertungssystem, um menschliche Bewerter zu ersetzen

Berichten zufolge hat die Texas Education Agency bestätigt, dass sie „eine automatisierte Bewertungsmaschine für offene Fragen zur Bewertung der akademischen Bereitschaft des Staates Texas für Lesen, Schreiben, Naturwissenschaften und Sozialkunde einführt“.

Die diesjährigen staatlich vorgeschriebenen Prüfungen in Texas werden historisch sein. Studenten, die diese Woche zu ihren STAAR-Prüfungen erscheinen, werden viel weniger menschliche Bewerter haben als im letzten Jahr. Eine Engine zur Verarbeitung natürlicher Sprache, allgemein Generative AI genannt, wertet die meisten ihrer Antworten aus.

Der STAAR-Test misst das Verständnis der Schüler für den staatlich vorgeschriebenen Kernlehrplan. Der Bundesstaat Texas hat es letztes Jahr neu gestaltet. Interessanterweise enthält der Test jetzt weitaus weniger Multiple-Choice-Fragen. Texas hat sie durch „offene Fragen“ oder „konstruierte Antwortelemente“ ersetzt.

Texas führt eine „automatisierte Bewertungsmaschine“ ein, um den STAAR-Test zu bewerten. Die Technologie, die die Verarbeitung natürlicher Sprache nutzt, einen Baustein von KI-Chatbots, wird dem Staat 15 bis 20 Millionen US-Dollar einsparen. Aber einige Pädagogen sind besorgt.

Neu in @TexasTribune https://t.co/Tu36tmF5B7

– Keaton Peters (@KeatonPeters) 10. April 2024

Entsprechend der Texas Tribunehätten die neu eingeführten offenen Fragen „sechs bis sieben Mal mehr konstruierte Antwortelemente“ gehabt.

Vereinfacht ausgedrückt gibt es bei solchen offenen Fragen mehrere akzeptable Antworten, im Vergleich zu nur einer Antwort bei einer Multiple-Choice-Frage. Folglich benötigen solche Fragen viel mehr Zeit und Bewerter, um zu punkten, erklärte Jose Rios, Direktor für Schülerbewertung bei der Texas Education Agency.

Mit anderen Worten: Diese Fragen erhöhen die Komplexität der Benotung erheblich. Und hier glänzt Gen AI wirklich. Plattformen wie ChatGPT haben eine nachgewiesene Erfolgsbilanz bei der Beantwortung komplexer Anfragen auf mehreren Ebenen der Einfachheit und Tiefe.

Texas schätzt, dass Gen AI jedes Jahr 15 bis 20 Millionen US-Dollar einsparen wird

Das TEA hat das Gen AI-Bewertungssystem anhand von 3.000 Antworten trainiert. Aus Sicherheitsgründen ist die künstliche Intelligenz der Generation Antworten ausgesetzt, die zwei Runden menschlicher Bewertung durchlaufen haben. Berichten zufolge hat die KI-Bewertungsmaschine die Eigenschaften von Antworten gelernt und ist so programmiert, dass sie dieselben Bewertungen zuweist, die ein Mensch vergeben hätte.

Texanische Kinder, die den STAAR-Test absolvieren, werden offenbar von der KI benotet. Wenn Sie mit der Punktzahl Ihres Kindes nicht einverstanden sind, wird es diese gerne noch einmal mit einem menschlichen Bewerter bewerten – für 50 $.#STAAR #Texashttps://t.co/6Qr36uCYaU

– Nein, das ist nur Suppe für meine Familie🐀 (@SeanxTyler) 10. April 2024

Menschliche Bewerter bewerten ein Viertel aller computerbewerteten Ergebnisse neu. Darüber hinaus würden einige Antworten, die das KI-Bewertungssystem verwirren könnten, wie z. B. umgangssprachliche oder nicht-englische Antworten, an menschliche Bewerter weitergegeben.

Die TEA schätzt, dass sie 15 bis 20 Millionen US-Dollar pro Jahr einsparen wird, wenn der Bedarf an temporären menschlichen Bewertern verringert wird. Statistisch gesehen plant Texas, in diesem Jahr weniger als 2.000 menschliche Prüfer einzustellen. Im Jahr 2023 hatte der Lone Star State etwa 6.000 Prüfer für dieselbe Prüfung eingestellt. Es erübrigt sich zu erwähnen, dass mehrere Pädagogen ihre Besorgnis über die neue Bewertungstechnik geäußert haben.

Das digitale Zeitalter ist in Texas angebrochen #STAAR prüfen. Im Dezember 2023 kamen die Ergebnisse der ersten computergestützten schriftlichen Antworten ans Licht. Mit dem neuen Bewertungssystem erzielten 79 % der Tester eine Null. Nur 8 % der Tester erzielten in einem früheren Test mit menschlichen Bewertern eine Null.#TxEd pic.twitter.com/Kwj7FYUh16

– RaiseYourHandTexas (@RYHTexas) 10. April 2024