Der menschliche Fehler hinter zerbrochenen Ergebnissen

Sie spüren diesen vertrauten Kratzer im Rücken Ihres Hals. Sie nehmen einen Schluck Wasser. Es tut weh. Sie versuchen, es zu klären. Immer noch da. Also, wie Millionen anderer, ziehen Sie Ihr Telefon heraus und fangen an, Symptome zu googeln.

Was als einfache Suche nach „Halsschmerzen“ schnell spiralt. Jetzt lesen Sie über Krebs, Immunstörungen und seltene Infektionen. Panik setzt ein. Klingt bekannt?

Dort könnte KI helfen. Tools wie Chatgpt können nachdenkliche, schnelle Antworten geben, und zum größten Teil ist es kostenlos. In einer kürzlich durchgeführten Oxford -Studie wurde festgestellt, dass Großsprachenmodelle 94,9% der Fälle korrekt diagnostizierten. Das ist höher als viele Ärzte.

Wenn Menschen jedoch dieselben Tools in denselben Fällen verwendeten, sank ihre Genauigkeit auf nur 34,5%. Wie sich herausstellt, ist AI hier in Bezug auf die Leistung nicht der begrenzende Faktor. Es sind wir, Menschen, die KI möglicherweise aus ihrem vollen Potenzial zurückhalten.

Die Studie

Die Oxford -Studie unter der Leitung von Dr. Adam Mahdi brachte fast 1.300 Teilnehmer ein und gab ihnen eine einfache Aufgabe: Wir handeln wie Patienten. Jede Person erhielt ein detailliertes Szenario mit Symptomen, Krankengeschichte und persönlichem Kontext. Dazu gehörten Dinge wie gerade Prüfungen oder Schmerzen beim Abblicken. Die Idee war zu sehen, wie gut die alltäglichen Menschen KI verwenden konnten, um herauszufinden, was los war, und zu entscheiden, welche Art von Sorgfalt zu suchen ist.

Ihnen wurde gesagt, sie sollten die KI wie einen echten Arzt behandeln. Stellen Sie Fragen, beschreiben Sie Symptome und holen Sie sich Hilfe. Jeder Teilnehmer musste mindestens einmal mit dem Modell interagieren, aber es stellte es frei, Follow-up-Fragen zu stellen oder es erneut zu versuchen, wenn er weitere Informationen benötigte. Die Forscher verwendeten drei verschiedene LLMs für das Experiment: Chatgpt-4o, Lama 3 und Command R+.

In der Zwischenzeit stimmte eine Ärztegremium für jeden Fall zusammen mit dem angemessenen Versorgungsniveau auf die richtige Diagnose zu. Die Forscher wussten bereits, ob der richtige Schritt zu Hause blieb oder einen Krankenwagen anrief. Der Test war, ob Menschen und KI zusammen dorthin kommen konnten.

Smart KI, schlechte Ergebnisse: Menschlicher Fehler?

Stellen Sie sich AI als perfekte Angestellte vor. Es kann große Datenmengen verarbeiten, den Anweisungen genau befolgen und Antworten in Sekunden lang liefern. Aber kombinieren Sie es mit einem schlechten Manager, und alles fällt auseinander. Vage Anweisungen, unklare Ziele und nicht genutzte Fähigkeiten können zu enttäuschenden Ergebnissen führen. Genau das passiert, wenn viele Leute versuchen, KI zu verwenden.

Stellen Sie sich vor, Ihr Chef bittet Sie, ihnen einen Kaffee zu holen, aber nicht zu sagen, was für eine Art. Sie kommen mit einem heißen schwarzen Kaffee zurück, nur damit sie sich darüber beschweren, dass sie einen Eiskunstlatte mit zwei Pumpen Vanille haben wollten. Technisch gesehen haben Sie den Job gemacht. Aber ohne die richtigen Anweisungen konnten Sie unmöglich liefern, was sie wirklich wollten.

Es gibt eine allgemeine Annahme, dass diese Tools es einfach „verstehen“, wie ein Freund, der Sie so gut kennt, dass sie Ihre Sätze beenden können. Aber KI ist nicht dein bester Freund. Es kann Ihren Ton nicht lesen oder erraten, was Sie gemeint haben. Wenn Sie nicht genau das geben, was es braucht, erhalten Sie nicht die richtige Ausgabe.

Diese Trennung zeigte sich deutlich in der Oxford -Studie. Die Forscher fanden heraus, dass Teilnehmer, die LLMs verwenden, in nur 34,5 Prozent der Fälle mindestens eine relevante Bedingung identifizierten. Die Kontrollgruppe, die KI überhaupt nicht benutzte, hat es mit 47 Prozent besser gemacht. Und wenn es darum ging, die korrekte Vorgehensweise zu wählen, haben LLM -Benutzer nur 44,2 Prozent der Fälle richtig gemacht. Die KI -Modelle haben es in 56,3 Prozent der Fälle rechts entschieden.

Also, was ist schief gelaufen? Die Teilnehmer gaben unvollständige oder unklare Eingabeaufforderungen an. Einige haben vergessen, Schlüsselsymptome zu erwähnen. Andere ließen die Schwere oder das Timing aus. Infolgedessen haben die Modelle die Eingabe falsch interpretiert oder wichtige Hinweise verpasst. Und selbst wenn die KI die richtige Diagnose stellte, folgten die Benutzer nicht immer durch. Dieser Teil ist nicht einzigartig für Maschinen. Die Leute ignorieren auch Ärzte. Die Symptome erleichtern, die Antibiotika bleiben unvollendet und es werden Anweisungen übersprungen.

Interessanterweise gewinnen einige KI -Tools bereits an den tatsächlichen medizinischen Workflows. Openevidence zum Beispiel wird von Ärzten verwendet, um klinische Literatur zu durchsuchen und zu validieren. Es wird nicht versucht, den Arzt zu ersetzen, sondern sie erweitert ihn. Der Unterschied liegt in Design: Tools wie diese unterstützen Fachleute, die bereits wissen, wie sie die Ergebnisse filtern, interpretieren und auf sie reagieren. Das unterscheidet sich sehr davon, dasselbe System an einen ungeschulten Patienten übergeben und das gleiche Ergebnis erwartet.

Der Engpass für Human-AI-Diagnose

Laut Nathalie Volkheimer, einem Benutzererfahrungsspezialisten am Renaissance Computing Institute, ist ein Problem mit Patienten, die mit Ärzten interagieren, darin, dass einige Erkrankungen oder die Ereignisse, die zu ihnen führen, peinlich sein können. Deshalb lassen die Leute manchmal wichtige Details aus.

Aber wenn die andere Partei eine Maschine ohne Urteilsvermögen oder Emotionen ist, würden Sie denken, dass die Menschen sich wohler fühlen würden, wenn sie alles teilen. Das war nicht der Fall.

Dies unterstreicht einen entscheidenden Fehler, den die Studie ausgesetzt hat. Das Problem ist nicht, dass KI -Modelle nicht klug genug sind. Es ist so, dass Menschen immer noch lernen, wie man mit ihnen kommuniziert. Wie Volkheimer es ausdrückt, ist das Problem nicht die Maschinerie selbst. Es ist die Interaktion zwischen Menschen und Technologie.

Es enthüllt auch einen tieferen Fehler in der Bewertung der KI. LLMs können medizinische Prüfungen oder rechtliche Tests mit Leichtigkeit bestehen. Das ist nicht überraschend. Sie werden auf riesigen Datensätzen geschult und haben Zugriff auf die richtigen Informationen. Aber diese Tests spiegeln nicht wider, wie echte Menschen sprechen, denken oder Fragen stellen.

Sogar die Trainingsdaten haben ihre Grenzen. Wie eine medizinische Überprüfung betont, werden viele Modelle auf Datensätzen geschult, die keine realen Vielfalt oder seltenen Randfälle widerspiegeln. In der Medizin kann das Fehlen dieser Ausreißer bedeuten, einen lebensbedrohlichen Zustand zu verpassen. Deshalb führt die Leistung bei einer Lehrbuchprüfung nicht immer zu Erfolg in unordentlichen klinischen Umgebungen.

Wenn ein Unternehmen einen KI -Chatbot erstellen möchte, um einen Kundendienstmitarbeiter zu ersetzen, kann es nicht einfach testen, ob der Bot die richtigen Antworten kennt. Es muss über die unordentlichen, inkonsistenten Art und Weise trainieren, wie Menschen tatsächlich sprechen. Menschen können etwas so Einfaches wie ein Produktpreis auf ein Dutzend verschiedener Arten fordern. Wenn das Modell nicht alle erkennt, wird es nicht die Antwort der Kundenanforderungen liefern.

Intelligentere KI braucht intelligentere Menschen

Wenn es eine Sache gibt, die diese Studie deutlich macht, ist es nicht das Problem, dass rohe Intelligenz nicht das Problem ist. Die KI kann die richtige Antwort bekommen. Es tut es oft. Die Aufschlüsselung erfolgt, wenn wir eintreten und wenn wir schlechte Eingabeaufforderungen angeben, Schlüsseldetails auslassen oder die Antworten ignorieren, die wir nicht hören möchten.

Dies ist nicht nur für die Gesundheitsversorgung. Egal, ob es sich um einen Kundendienst-Chatbot, einen Rechtsassistenten oder ein AI-betriebener Tutor handelt, das gleiche Muster gilt. Das Modell scheitert die Aufgabe nicht. Wir versagen die Schnittstelle.

Es ist leicht, durch beeindruckende Benchmark -Werte und hohe Genauigkeitsgrade einzusteigen. Aber eine KI, die eine Prüfung Asse, weiß nicht automatisch, wie er einem verwirrten, überwältigten oder vagen Menschen hilft. Und bis wir diese Systeme mit vorsichtigem menschlichem Verhalten entwerfen und testen, werden wir ihre reale Nützlichkeit immer wieder überschätzen.

Dieser Kontrast wird noch deutlicher, wenn Sie KI -Systeme betrachten, die erfolgreich sind. Bei Johns Hopkins setzten die Forscher ein KI -Tool ein, das Sepsis fast sechs Stunden früher als herkömmliche Methoden entdeckte und den Tod der Patienten um 20 Prozent verringerte. Der Unterschied? Dieses System wurde direkt in Krankenhaus-Workflows eingebettet und stützte sich auf klinische Echtzeitdaten, nicht nur auf Patientenaufforderungen. Es zeigt, dass KI mit dem richtigen Design und dem richtigen Kontext funktionieren kann, aber nur, wenn es für die Menschen berücksichtigt wird.

Wenn Ihr Hals das nächste Mal weh tut und Sie versucht sind, einen Chatbot zu fragen, was es bedeutet, denken Sie daran, dass die gute Antwort davon abhängt, eine gute Frage zu stellen. Die Modelle sind nicht der Engpass. Wir sind. Und das ist der Teil, den wir reparieren müssen.