Forscher lassen ChatGPT (Medizin-)Prüfungsaufgaben entwickeln – Ergebnis: Es geht!

1

BONN. Sieht so die Prüfung der Zukunft aus? Ein Prüfling schickt seine KI in eine Prüfung, die eine andere KI erstellt hat. Eine weitere Anwendung überprüft die Ergebnisse. Forscherinnen und Forscher der Uni Bonn haben nun einen Schritt in Richtung auf automatische Prüfungserstellung gemacht.

Prüfungen werden sich in absehbarer Zeit leicht automatisieren lassen. Illustration: Shutterstock

Bei der Diskussion um KI in der Schule steht ebenso wie an Hochschulen meist die Sorge im Vordergrund, wie eigentlich noch Leistungen bewertet werden sollen, wenn nicht sichergestellt werden kann, dass sie originär vom Prüfling stammen. Nun haben Forscherinnen und Forscher am Universitätsklinikum Bonn (UKB) den Spieß umgedreht und Prüfungsfragen für Medizinstudentinnen und -studenten mithilfe von Künstlicher Intelligenz (KI) entwickelt. Diese hat das Team um Matthias Laupichler dann in einer Studie mit von Dozentinnen und Dozenten erstellten Prüfungsfragen verglichen.

Insgesamt hatten die Wissenschaftler zwei Sätze mit 25 Multiple-Choice-Fragen mit jeweils fünf Antwortmöglichkeiten erstellt, von denen eine richtig war. Der erste Fragensatz wurde von einem erfahrenen medizinischen Dozenten verfasst, der zweite Satz wurde von ChatGPT erstellt. 161 Studentinnen und Studenten beantworteten alle Fragen in zufälliger Reihenfolge. Bei jeder Frage gaben sie auch an, ob diese ihrer Meinung nach von einem Menschen oder von ChatGPT erstellt worden war. Dabei zeige sich, dass von den Studentinnen und Studenten nur 57 Prozent die Fragequellen richtig identifizieren konnten.

Tobias Raupach Institutsdirektor am UKB fasst die Bedeutung dieses Ergebnisses zusammen: „Wir wussten aus früheren Studien, dass Sprachmodelle wie ChatGPT die Fragen in medizinischen Staatsexamina beantworten können. Wir konnten nun erstmals zeigen, dass mit der Software auch neue Fragen geschrieben werden können, die sich kaum von denen erfahrener Lehrender unterscheiden.“

Inwieweit das Vorgehen der Wissenschaftler auf den schulischen Kontext übertragbar ist, war nicht Teil der Studie, dennoch deutet sich in den Studienergebnissen ein großes Potenzial an. Studienautor Matthias Laupichler erläutert: „Es hat uns erstaunt, dass die Schwierigkeit von menschenerstellten und ChatGPT-generierten Fragen quasi identisch war. Noch überraschender aber war für uns, dass die Studierenden den Fragenursprung in fast der Hälfte der Fälle nicht richtig identifizieren konnten. Die Ergebnisse signalisierten mithin, dass der Einsatz von GPTs bei der Erstellung von Prüfungsfragen zu einer signifikanten Zeitersparnis führen könne. Darüber hinaus könnten etwa die Studierenden sich gegenseitig mithilfe von KI-generierten Fragen testen.

Neue Lernmöglichkeiten sieht auch Laupichers Kollegin Johanna Rother: „Dozierende können ChatGPT zur Ideengenerierung von Prüfungsfragen nutzen, die anschließend durch die Dozierenden kontrolliert und gegebenenfalls überarbeitet werden. Insbesondere profitieren unserer Meinung nach aber die Studierenden von der automatisierten Erstellung von medizinischen Übungsfragen, da schon seit längerem bekannt ist, dass das Selbsttesten des eigenen Wissens sehr förderlich für das Lernen ist.“

Tizian Kaiser, der Humanmedizin im siebten Semester studiert, kommentiert: „Beim Bearbeiten der Probeklausur war ich ziemlich überrascht, wie schwer es mir fiel, die Fragen auseinanderzuhalten. Mein Ansatz war, die Fragen aufgrund ihrer Länge, der Komplexität ihres Satzbaus und ihrer inhaltlichen Schwere zu unterscheiden. Aber um ehrlich zu sein, musste ich in manchen Situationen schlicht raten und die Auswertung hat gezeigt, dass mir die Unterscheidung kaum möglich war. Das bringt mich zu der Überzeugung, dass eine sinnvolle Wissensabfrage wie in dieser Klausur auch ausschließlich durch von der KI gestellte Fragen möglich ist.“

Auch Kaiser ist überzeugt, dass GPTs ein großes Potenzial für Studentinnen und Studenten habe. Der Einsatz von KI ermögliche es Studentinnen und Studenten, das gelernte Wissen in verschiedenen Weisen und immer wieder anders zu wiederholen. „Es gibt die Möglichkeit, sich durch die KI zu vorher definierten Themen abfragen zu lassen, sich Probeklausuren konzipieren zu lassen oder mündliche Prüfungen schriftlich zu simulieren. Die Wiederholung des Stoffes ist dadurch zielführend auf das Prüfungskonzept zugeschnitten und die Trainingsmöglichkeiten sind endlos“, sagt der Studienteilnehmer und grenzt gleichzeitig ein: „Allerdings würde ich ChatGPT auch nur dafür benutzen und nicht schon vorher im Lernprozess, in dem die Studienthemen aufgearbeitet und zusammengefasst werden müssen. Denn während ChatGPT hervorragend für die Repetition ist, befürchte ich, dass es bei der Aufbereitung von Lerninhalten zu Fehlern kommen kann. Diese Fehler würden mir ohne eine vorherige Übersicht über das Thema nicht auffallen.“

Aus weiteren Studien sei bekannt, dass regelmäßiges Prüfen – auch und gerade ohne Benotung – Studierende dabei unterstütze sich Lerninhalte nachhaltiger zu merken. Solche Prüfungen könnten nach Ansicht der Studienautorinnen und -autoren jetzt mit wenig Aufwand erstellt werden. Zunächst soll die aktuelle Studie aber auf andere Kontexte (d. h. andere Fächer, Semester und Länder) übertragen und untersucht werden, ob ChatGPT auch andere Fragen als die in der Medizin üblichen Multiple Choice-Fragen schreiben kann. (zab, pm)

KMK-Kommission sieht großes Potenzial für ChatGPT und Co. an Schulen – betont aber auch: Lehrkräfte sind gefordert!

Anzeige


Info bei neuen Kommentaren
Benachrichtige mich bei

1 Kommentar
Älteste
Neuste Oft bewertet
Inline Feedbacks
View all comments
AA-Stiftung
3 Monate zuvor

Multiple Choice ist auch einfacher zu entwickeln als Erörterungen…