Künstliche Intelligenz als Gesundheitsratgeber?

Inhaltsverzeichnis
Ist die rote Stelle an meiner Haut gefährlich? Sollte ich lieber zum Arzt gehen? Mit Fragen wie diesen wenden sich Menschen zunehmend an digitale Helfer. Neben spezialisierten Symptom-Checker-Apps versprechen auch generative künstliche Intelligenzen wie ChatGPT schnelle Antworten bei medizinischen Problemen. Doch wie nützlich sind die Gesundheitsratschläge von „Dr. KI“? Zwei Studien zeigen, dass manche Apps tatsächlich bei der Selbstdiagnose und -behandlung helfen können. ChatGPT dagegen neigt dazu, auch harmlose Symptome als bedrohlich einzustufen. Dadurch könnte die KI Personen dazu motivieren, unnötigerweise ärztliche Hilfe zu suchen – und so weiter zur Überlastung des Gesundheitssystems beitragen.
Viele leichte Erkrankungen verschwinden von selbst wieder, ohne dass ärztliche Hilfe erforderlich ist. Bei manchen Symptomen ist es allerdings sinnvoll, sie frühzeitig medizinisch abklären zu lassen, um eine womöglich gefährliche Krankheit nicht zu übersehen. Für viele Menschen ist es herausfordernd, zwischen diesen Fällen zu unterscheiden. Abhilfe versprechen KI-Anwendungen, darunter große Sprachmodelle wie ChatGPT, aber auch spezialisierte Symptom-Checker-Apps wie Ada und Healthwise. Doch wie zuverlässig ist die künstliche Intelligenz bei der Bewertung der Symptome? Und kann sie tatsächlich dazu beitragen, dass medizinische Laien bessere Entscheidungen treffen, wenn es darum geht, ob sie einen Arzt aufsuchen sollten oder nicht?
ChatGPT neigt zu Überschätzungen
Um diese Fragen zu beantworten, testete ein Team um Marvin Kopka von der Technischen Universität Berlin in einer Studie verschiedene KI-Anwendungen mit echten Patientenfällen. Dazu zählten unter anderem große Sprachmodelle wie ChatGPT von OpenAI und Llama 2 von Meta sowie zwölf spezialisierte Symptom-Checker-Apps. Die beschriebenen Fälle umfassten einerseits medizinische Notfälle wie eine schwere Gehirnerschütterung und ernsthafte Erkrankungen wie Krebs, andererseits aber auch weniger behandlungsbedürftige Beschwerden wie Muskelschmerzen, Magenverstimmungen und Hautprobleme.
„Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, erklärt Kopka. Zum Vergleich legten die Forschenden die Fallbeispiele zusätzlich menschlichen medizinischen Laien vor, die ebenfalls auf Basis der geschilderten Symptome entscheiden sollten, welche Reaktion angemessen ist: abwarten, zeitnah den Hausarzt konsultieren oder direkt in die Notaufnahme fahren.
Das Ergebnis: Während viele Symptom-Checker-Apps tatsächlich angemessene Empfehlungen lieferten und zumindest bei vielen Patientenfällen korrekt einstuften, ob es sich um harmlose oder potenziell gefährliche Symptome handelt, schnitten die großen Sprachmodelle deutlich schlechter ab. Insbesondere ChatGPT stufte fast jeden Fall als Notfall ein und empfahl auch bei harmlosen Beschwerden, vorsichtshalber einen Arzt zu Rate zu ziehen. „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem“, sagt Kopka. „Die KI empfiehlt häufig, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen.“
Einfluss auf menschliche Entscheidung
Die Studie ergab auch, dass die medizinischen Laien meist gut darin waren, echte Notfälle zu erkennen und sich bei Bedarf dafür zu entscheiden, den Rettungsdienst zu verständigen. Ging es um weniger schwerwiegende Symptome, fiel es ihnen allerdings oft schwer zu unterscheiden, ob sie abwarten oder einen Hausarzt aufsuchen sollen. Kann künstliche Intelligenz in diesen Fällen die Entscheidung verbessern?
Um das herauszufinden, legten Kopka und sein Team in einer zweiten Studie 600 weiteren Freiwilligen erneut echte Patientenfälle vor und baten sie, die Entscheidung zwischen Abwarten, Hausarzt und Notaufnahme zu treffen. Dieses Mal stellten die Forschenden ihren Testpersonen aber zusätzlich eine KI-generierte Einschätzung zur Verfügung, die entweder von ChatGPT oder von der Symptom-Checker-App Ada stammte. Dabei zeigte sich, dass die Probanden der KI nicht blind vertrauten, sondern sie lediglich als eine Quelle in ihre Entscheidungsfindung einbezogen.
Die Testpersonen, die ChatGPT’s Einschätzung zur Verfügung hatten, trafen keine besseren Entscheidungen als ohne KI-Hilfe. Sowohl mit als auch ohne ChatGPT lagen sie in rund 54 Prozent der Fälle richtig. Bei den Probanden dagegen, die Informationen aus der Symptom-Checker-App erhalten hatten, verbesserte sich die Entscheidungsgenauigkeit auf 64,5 Prozent. Spezialisierte Apps können demnach durchaus dabei helfen, korrekt einzustufen, in welchen Fällen eine Selbstversorgung ausreichend ist. „In den meisten Fällen treffen Menschen bereits jetzt sichere und vernünftige Entscheidungen“, fasst Kopka zusammen. „In einigen Situationen können Sie jedoch von den Apps profitieren.“
Quellen: Marvin Kopka (Technische Universität Berlin) et al., Scientific Reports, doi: 10.1038/s41598-024-83844-z
Wenn Ihnen der Artikel gefallen hat, vergessen Sie nicht, ihn mit Ihren Freunden zu teilen. Folgen Sie uns auch in Google News, klicken Sie auf den Stern und wählen Sie uns aus Ihren Favoriten aus.
Wenn Sie weitere Nachrichten lesen möchten, können Sie unsere Wissenschaft kategorie besuchen.