GPT-4 fordert Augenärzte heraus und ermöglicht eine bemerkenswert genaue Beurteilung

Oscar

GPT-4 von OpenAI hat es geschafft, im Vergleich zu Augenärzten bemerkenswert gut abzuschneiden, heißt es in einem neuen Bericht. Die durch die Generative KI (Künstliche Intelligenz) LLM (Large Language Model) generierten Bewertungen konnten sich gegen nicht-spezialisierte junge Ärzte und Auszubildende durchsetzen. Die von Microsoft finanzierte Generation AI kam sogar Experten-Augenmedizinern nahe.

GPT-4 beantwortet MCQs zur Beurteilung der Augenheilkunde

Eine Studie, veröffentlicht in PLOS Digitale Gesundheit Tagebuch, hat bewiesen, wie Gen AI LLMs im medizinischen Bereich helfen können. Zu den Ergebnissen sagte Arun Thirunavukarasu, der Hauptautor des Papiers:

„Diese Arbeit zeigt, dass das Wissen und die Argumentationsfähigkeit dieser großen Sprachmodelle im Zusammenhang mit der Augengesundheit mittlerweile kaum noch von Experten zu unterscheiden sind.“ Wir sehen die Fähigkeit, recht komplizierte Fragen zu beantworten.“

Er bezog sich auf die Fähigkeit von GPT-4, MCQs (Multiple-Choice-Fragen) zum Thema Augenheilkunde zu beantworten. Insgesamt wurden in der Studie Berichten zufolge GPT-4 87 MC-Fragen gestellt. Fünf erfahrene Augenärzte, drei angehende Augenärzte und zwei nicht spezialisierte Assistenzärzte beantworteten die gleichen Fragen.

Die Studie entwarf einen Fragebogen anhand eines Lehrbuchs, um Auszubildende auf alles von der Lichtempfindlichkeit bis hin zu Läsionen zu testen. Es ist interessant festzustellen, dass der Inhalt des Lehrbuchs nicht gemeinfrei verfügbar ist. Daher glauben die Forscher, dass OpenAI seine LLMs möglicherweise während einer internen Trainingsübung trainiert hat.

Während der Studie unternahmen die Forscher ChatGPT, ausgestattet mit GPT-4 oder GPT-3.5, drei Versuche, eine definitive Antwort zu finden. Wenn dies fehlschlug, markierten die Forscher die Antwort als „null“.

GPT-4 schlägt einige Augenärzte, kann aber noch nicht mit Experten mithalten

Von den 87 verschiedenen Patientenszenarien übertraf GPT-4 Berichten zufolge die Junioren und erzielte ähnliche Ergebnisse wie die meisten Spezialisten. Konkret hat GPT-4 60 der 87 Fragen richtig beantwortet. Den jungen Ärzten gelang es im Durchschnitt, 37 richtige Antworten zu bekommen.

Die Auszubildenden der Fachrichtung Augenheilkunde kamen mit durchschnittlich 59,7 richtigen Antworten ganz nah dran. Mit Ausnahme eines Experten, der 56 MC-Fragen richtig beantwortete, gaben die übrigen Spezialisten im Durchschnitt 66,4 richtige Antworten ab.

Im Vergleich dazu schaffte PaLM 2 49 richtige Antworten, GPT-3.5 bekam nur 42 und LLaMa lag mit nur 28 richtig beantworteten MC-Fragen an der Spitze.

Es ist wichtig zu beachten, dass die Studie Mitte 2023 durchgeführt wurde. Mit anderen Worten: Die LLMs sind wahrscheinlich viel besser darin geworden, komplexe Fragen zu verstehen und zu beantworten.

Die Gesundheitsbranche würde zweifellos von ChatGPT, Gemini und anderen Gen-KI-Plattformen profitieren. Einige medizinische Experten haben jedoch davor gewarnt, sich bei der Diagnose eines Patienten auf Gen AI zu verlassen. Solchen Plattformen „mangelt es an Nuancen“, erklärten sie. Daher könne die Wahrscheinlichkeit einer Ungenauigkeit besorgniserregend hoch sein, warnten einige Forscher.