„KI-Algorithmen werden schon bald nicht mehr wegzudenken sein“ — Dr. Aleksandar Ćirković über das Potential von ChatGPT-4 für die Augenheilkunde

Für ihre Studie „Exploring the Potential of ChatGPT-4 in Predicting Refractive Surgery Categorizations: Comparative Study“ untersuchten Dr. Aleksandar Ćirković und Dr. Toam Katz, PD, ob ChatGPT-4 bei der Klassifizierung von Patienten für refraktive Chirurgie helfen kann. Wie sich der Chatbot bei dieser Aufgabe geschlagen hat und welches Potential ChatGPT-4 für die Augenheilkunde und die refraktive Chirurgie im Besonderen hat, erklärt Dr. Ćirković im Interview.

©Dr. Aleksandar Ćirković
©Dr. Aleksandar Ćirković

Dr. Aleksandar Ćirković
studierte Medizin und Medizinische Informatik. Seine Masterarbeit schrieb er im Bereich Künstliche Intelligenz. Seit 2013 ist er Europäischer Facharzt für Augenheilkunde, den deutschen Facharzttitel trägt er seit 2014. Ćirković ist seit Februar 2018 als Spezialist der refraktiven Chirurgie bei CARE Vision tätig. Er ist Mitglied in der Deutschen Physikalischen Gesellschaft und bei Mensa in Deutschland e.V.

Herr Dr. Ćirković, weshalb haben Sie diese Studie initiiert?

Dr. Aleksandar Ćirković: Wie viele ChatGPT-Studien des letzten Jahres entstand sie aus einer Spielerei, nämlich der Idee, dem eigentlich textbasierten Programm nüchterne Datenreihen zur Analyse zu geben und zu schauen, wie es darauf reagiert – bei kleinen Testeingaben hatte ChatGPT nämlich bereits ganz gutes Basiswissen demonstriert. Unsere Studie begann also mit einer Neugier auf ChatGPTs Fähigkeiten im Umgang mit numerischen Daten. Wir wollten seine Anwendung im komplexen Bereich der refraktiven Chirurgie erforschen.

Wie sind Sie vorgegangen?

Da es für solche Tests von Sprachmodellen (Large Language Models, LLMs, wie ChatGPT) noch kein strukturiertes Konzept gibt, beschlossen wir, einen praxisnahen Ansatz zu wählen, um Patienten anhand realer Szenarien in die passenden Behandlungsmethoden zu kategorisieren.

In welche Gruppen sollten die Patienten einsortiert werden?

Wir entschlossen uns, zunächst unsere typischen Kategorien aus dem täglichen Gebrauch zu benutzen, die aus „menschlicher“ Sicht auf Basis der gegebenen Pentacam-Messwerte und Indizes sinnvoll angewandt werden konnten. Die Patienten wurden in Gruppen für LASIK, PRK, ICL, IOL, Ektasierisiko oder anderweitig keine Operation eingeteilt. Im Bewusstsein, dass dies bereits eine sehr komplexe Kategorisierung darstellt, haben wir die Kategorisierungen nochmals gröber gefasst in eine „LASIK/PRK ja oder nein”-Frage, und beides dann mit unserer eigenen Einschätzung verglichen.

Wie hat sich der Chatbot dabei im Vergleich zu einem Refraktivchirurgen geschlagen?

ChatGPTs Leistung war interessanterweise besser als der Zufall und zeigte ein nuanciertes Verständnis, obwohl mit einiger Variabilität, was die Unwägbarkeiten der klinischen Entscheidungsfindung widerspiegelt. Die bessere Leistung zeigte er bei der einfachen Kategorisierung. Möglicherweise wäre seine Leistung noch besser gewesen, wenn die menschliche Einschätzung aus dem Durchschnitt von mehr als einem Refraktivchirurgen bestanden hätte.

Wo lagen die Schwächen des Chatbots?

Wir beobachteten Schwankungen der Ergebnisse und unregelmäßige Reaktionen, besonders bei großen Datensätzen. Hier zeigt sich, dass weitere Analysen der Abhängigkeit der Ausgabe von der großen Bandbreite an Eingabemöglichkeiten („prompts“) notwendig sind.

ChatGPT-4 wurde ja nicht für diese sehr spezifische Anwendung modelliert. Warum sind die Ergebnisse trotzdem so gut? Haben Sie ChatGPT-4 für Ihre Studie trainiert?

Das ist eben das Erstaunliche: ChatGPT besteht aus mehreren hundert Billionen (!) einzelner neuronaler Knoten, die ausgehend vom Input eigentlich nur die Entscheidung treffen, welches Wort als nächstes ausgegeben wird. Es scheint aber, dass ab einer gewissen Größe des Netzwerks eine Art Grundverständnis für die zugrunde liegende reale Welt entsteht, die über das hinausgeht, was wortwörtlich in den benutzten Quellen stand. Dies wird im Allgemeinen als AGI (artificial general intelligence, „allgemeine/umfassende künstliche Intelligenz“) bezeichnet, und ChatGPT-4 zeigt zumindest erste Anzeichen hierfür, die Bewältigung von Transferaufgaben. Es ist mehr als erstaunlich, dass eine so allgemein trainierte KI eine Aufgabe zumindest ordentlich bewältigen kann, die ich als Assistenzarzt im ersten Jahr der Augenheilkunde so nicht geschafft hätte, und ChatGPT-4 ist nun erst seit knapp einem Jahr in Betrieb! Wir haben ChatGPT nicht speziell trainiert, außer ihm einen Prompt vorab zu geben, welcher ihm als Orientierung unsere typische Grenze für einen Ektasierisiko-Patienten als Leitlinie zur Verfügung stellt. Ob solche Prompts tatsächlich notwendig sind, die Ergebnisse verbessern oder anders konstruiert werden sollten, wird sicherlich Gegenstand künftiger Forschung werden.

Wäre es nicht noch besser, mit einer spezifischen KI zu arbeiten?

Dieser Ansatz wurde bereits seit längerem verfolgt, mit bisher eher mäßigem Erfolg. Anscheinend ist es gerade das allgemeine Konzept, welches es ChatGPT ermöglicht, eine Art Vorstellung der Welt in sich zu haben, die es ihm ermöglicht, die Ergebnisse besser einzuordnen und weniger vom Benutzer selbst oder den Programmieren abzuverlangen.

Wo sehen Sie das größte Potential von ChatGPT-4 für die Augenheilkunde und die refraktive Chirurgie im Besonderen? 

ChatGPT ist eine niedrigschwellige Möglichkeit, an Ergebnisse zu kommen. Zudem kann ChatGPT bereits jetzt auf die Wünsche eines einzelnen Benutzers zugeschnitten werden („CustomGPT“), so dass man hier eventuell noch mehr für einen bestimmten Arbeitsbereich herausholen könnte. Ich sehe ChatGPT (noch) nicht im täglichen Einsatz bei Refraktivchirurgen selbst, doch bereits im Bereich des Assistenzpersonals und der Patienten gibt es heute schon Möglichkeiten eines sinnvollen Gebrauchs: Ich habe ihm mehrmals simulierte Patientenfragen nach möglichen OP-Risiken, dem korrekten Gebrauch von Augentropfen nach OPs, oder Vor- und Nachteilen einzelner Eingriffe geschickt, und würde sagen, dass er überwiegend brauchbare Aussagen ausgibt, wobei man natürlich immer im Hinterkopf haben muss, dass man mit einer Maschine kommuniziert.

Und wie sieht es in Ihrer persönlichen augenärztlichen Arbeit aus? Kommt hier KI in irgendeiner Form bereits zum Einsatz?

Bisher noch wenig, außer bei der Berechnung von IOLs: Die Kane-Formel beruht zum Teil auf einem nicht veröffentlichten KI-Algorithmus und liefert derzeit die genauesten Vorhersagen der postoperativen Brechkraft.

Die Entwicklung der KI macht rasante Fortschritte. Wann wird es Ihrer Meinung nach so weit sein, dass sie die Arbeit von refraktiven Chirurgen im klinischen Alltag auf breiter Front unterstützen wird?

Obwohl die Rolle der KI in der Augenheilkunde noch in den Kinderschuhen steckt, deutet ihre rasante Entwicklung darauf hin, dass sie bald einen bedeutenden Beitrag zur klinischen Beurteilung und Patienteninteraktion leisten könnte. KI-Algorithmen werden schon bald aus den täglichen technischen Geräten, die wir benutzen, nicht mehr wegzudenken sein, angefangen mit der Hornhautmessung, den Biometrien, den OCT-Analysen der Netzhaut und des Sehnerven, später dann auch im operativen Bereich. Auswertungen im medizinischen Bereich werden über kurz oder lang fast ausschließlich aus KI-Algorithmen bestehen, da sie bei entsprechend großer Datenmenge, die ja dank der Digitalisierung auch künftig immer mehr vorhanden sein wird, den klassischen Berechnungen in ihrer Vorhersagekraft überlegen sind. Wir werden davon eine Verbesserung der Ergebnisse haben, eine Erleichterung des Arbeitsalltags durch Abnahme „stumpfsinniger“ Tätigkeiten, sowie eine Verbesserung der Patientenkommunikation. Ich freue mich und hoffe, auch künftige Entwicklungen mit beobachten und auswerten zu dürfen!

Interview: Achim Drucks