PASSAU. In einer Studie, die im Nature-Journal „Scientific Reports“ erschienen ist, hat ein Forschungsteam der Universität Passau die Qualität von maschinell generierten Inhalten mit Aufsätzen von Schülerinnen und Schülern verglichen. Das Ergebnis: Der KI-gestützte Chatbot schneidet bei allen Kriterien besser ab, insbesondere bei der Sprachbeherrschung.
Das Sprachmodell ChatGPT macht enorme Fortschritte. Nachdem die Version 3.5 Anfang des Jahres noch am bayerischen Abitur gescheitert war, erreichte der Nachfolger 4 kaum ein halbes Jahr später eine glatte Zwei.
Wie sehr die KI-generierten Inhalte das Schulsystem umwälzen könnten, verdeutlicht nun auch eine Studie der Universität Passau. Die Forschenden haben ebenfalls mit den beiden Versionen des Sprachmodells experimentiert. In der Studie, die im Oktober unter dem Titel „A large-scale comparison of human-written versus ChatGPT-generated essays“ im renommierten Nature-Journal „Scientific Reports“ erschienen ist, kommen sie zu dem Ergebnis, dass die Maschine die besseren englischsprachigen Aufsätze verfasst. Dazu haben sie Lehrkräfte maschinengenerierte Texte und Aufsätze von Schülerinnen und Schülern in der Oberstufe nach Richtlinien des niedersächsischen Kultusministeriums bewerten lassen.
„Mich hat überrascht, wie klar das Ergebnis ausgefallen ist“, sagt Prof. Steffen Herbold, Inhaber des Lehrstuhls für AI Engineering an der Universität Passau, der die Studie initiiert hat. Denn beide Versionen des Chatbots des Unternehmens OpenAI schnitten in allen Bereichen besser ab als die Schülerinnen und Schüler, wobei GPT-3 im Mittelfeld lag und GPT-4 die beste Leistung aufwies. „Das zeigt, dass Schulen diese neuen Werkzeuge nicht ignorieren sollten.“
Der Informatiker führte die interdisziplinäre Studie gemeinsam mit der Computerlinguistin Prof. Annette Hautli-Janisz und der Informatik-Didaktikerin Ute Heuer durch. „Es ist mir ein Anliegen, Lehrerinnen und Lehrer auf die Herausforderungen und Chancen durch die zunehmende Verfügbarkeit künstlicher Intelligenzen vorzubereiten“, sagt die Informatik-Didaktikerin Heuer.
Sie hatte eine Fortbildung zum Thema „ChatGPT – Chancen und Herausforderung“ initiiert und gemeinsam mit dem Team durchgeführt. An dieser Veranstaltung, welche im März 2023 stattfand, beteiligten sich 139 Lehrkräfte, die mehrheitlich an Gymnasien unterrichteten. Die Lehrerinnen und Lehrer erhielten zunächst einen Einblick in ausgewählte technologische Ideen von Textgeneratoren im Allgemeinen und ChatGPT im Besonderen. In einer Praxisphase ging es sodann konkret um englischsprachige Texte, deren Ursprung die Fortbildungsteilnehmer nicht kannten.
Im Fragebogen bewerteten die Lehrkräfte die vorgelegten Aufsätze unter Verwendung von Skalen, die das Kultusministerium in Niedersachsen festgelegt hat. Dazu zählten inhaltliche Kriterien wie Thema, Vollständigkeit und Logik des Aufbaus sowie sprachliche Aspekte wie Wortschatz, Komplexität und Sprachbeherrschung. Für jedes Kriterium definierte das Passauer Forschungsteam eine Skala von 0 bis 6, wobei 0 für das schlechteste Ergebnis und 6 für das beste stand.
111 Lehrkräfte füllten den Bogen vollständig aus und bewerteten insgesamt 270 englischsprachige Aufsätze. Die größte Abweichung stellte das Forschungsteam bei der Sprachbeherrschung fest. Hier erreichte die Maschine 5,25 (GPT-4) und 5,03 Punkte (GPT-3). Die Schülerinnen und Schüler kamen durchschnittlich auf 3,9 Punkte. „Das bedeutet nicht, dass Schülerinnen und Schüler schlecht in der englischen Sprache sind. Vielmehr sind die Werte der Maschine überdurchschnittlich hoch“, betont Annette Hautli-Janisz, Juniorprofessorin für Computational Rhetoric und Natural Language Processing an der Universität Passau.
Für Hautli-Janisz, die gemeinsam mit ihrer Doktorandin Zlata Kikteva die Texte aus linguistischer Sicht analysierte, lieferte die Studie noch weitere spannende Einblicke – und zwar in die Sprachentwicklung der Maschine. „Wir sehen, dass sich die Modelle über die Zeit verändern und können mit unserer Studie belegen, dass sie bei unserem Task besser geworden sind.“ Darüber hinaus stellten die Forscherinnen Unterschiede zwischen der menschlichen und der maschinengenerierten Sprache fest: „Wenn wir in Zukunft mehr KI-generierte Texte lesen, dann stellt sich die Frage, ob und wie sich dies auf unsere menschliche Sprache auswirken wird“, sagt Hautli-Janisz. News4teachers
Prof. Dr. Steffen Herbold ist Inhaber des Lehrstuhls für AI Engineering an der Universität Passau. In seiner Forschung untersucht er schwerpunktmäßig die Qualität von KI-Modellen. Für die Studie setzte er gemeinsam mit Dr. Alexander Trautsch die statistische Auswertung und eine Plattform für die Datenerhebung auf. Zusammen mit Prof. Dr. Hautli-Janisz modellierte er das Studiendesign.
Annette Hautli-Janisz ist Juniorprofessorin für Computational Rhetoric und Natural Language Processing. Sie interessiert sich in ihrer Forschung dafür, wie sich die Argumentation der KI-gestützten Sprachmodelle entwickelt. In die Studie brachte sie neben der computerlinguistischen Analyse die Idee ein, einen bereits vorhandenen Datensatz der TU Darmstadt mit englischsprachigen Aufsätzen von Schülerinnen und Schülern zu nutzen. Die Aufsätze stammen aus einem Online-Forum für Hausaufgaben, in denen Schülerinnen und Schüler Feedback von Native Speakern einholten, um ihre Texte zu verbessern. Der Datensatz kommt in der Forschung immer wieder zum Einsatz.
Ute Heuer ist Informatikdidaktikerin an der Universität Passau. Als Teil ihrer Tätigkeit initiiert sie Fortbildungsmaßnahmen für Lehrkräfte, um diese für die durch die Verfügbarkeit künstlicher Intelligenz entstehenden Möglichkeiten und Herausforderungen zu sensibilisieren.
“We must re-invent homework and develop teaching concepts that utilize these AI models in the same way as math utilizes the calculator: teach the general concepts first and then use AI tools to free up time for other learning objectives.” Das sagt die Studie, funktioniert leider in Mathe nicht wirklich. Die ‘general concepts’ kommen häufig nur als Kochrezepte an: was muss ich bei dieser Art Aufgabe eintippen? Konzepte, womöglich noch miteinander kombiniert einsetzen? Kommt vor, manchmal, bei wenigen.
Ist das Abitur der richtige Vergleich? Die Chatbots werden entwickelt als bestmögliche Lösungen, als Expertensysteme. Es wäre sehr traurig, wenn sie das Abiturniveau der meisten SuS nicht übertreffen würden, mich überrascht das Ergebnis nicht.
Der Logik kann ich nicht folgen: ‘Chatbots schneiden in allen Bereichen besser ab, darum sollten Schulen sie nicht ignorieren und im Unterricht einsetzen.’ Ein einfach erreichbares Tool, das weit besser ist als man es selber könnte verbessert jetzt wie genau den Unterricht und die Schülerleistungen? Jeder könnte sich damit Anregungen und Hilfen holen, ach wie schön. Man könnte alternativ natürlich auch die eigenen Anstrengungen zurückfahren, warum sollte man Konzepte üben, die ChatGPT viel besser kann?
Bin ja nur ein dummer Naturwissenschaftler, natürlich dürfen die Sprachfächer auch gerne selbst ausprobieren, ob solche Hilfe beim Erlernen von Zusammenhängen sinnvoll ist. In meinen Fächern sind die Referate besser geworden, man sollte nur lieber nicht nachfragen. Theoretisch alles sehr schön, praktisch sind Schüler Menschen, junge Menschen mit bestenfalls schwankender intrinsischer Motivation. Die meisten arbeiten ergebnisorientiert: ‘was reicht um der Aufgabe zu entsprechen?’. Neue Aufgabentypen, die bei diesem Ergebnis erst anfangen und dann ‘weitergehende Fertigkeiten’ entwickeln sollen? Viel Spass.
Nur eine Zwei?! Sind sich die LuL überhaupt bewusst, welche emotionale Last sie der armen kleinen KI für ihre Zukunft aufbürden? Man sollte diesen Leuten wirklich mal klarmachen, was sie damit anrichten können, können, können, können … [syntax error]
Reicht das überhaupt für den NC beim Lehramtsstudium? Ok, vielleicht als Seiteneinsteiger …
Weil Seiteneinsteiger dümmer sind als Lehrämtler??? Interessante Ansicht.
Nein, ich habe mich nur den Spekulationen über den weiteren Lebensweg der kleinen KI angeschlossen und wie sie evtl. den Weg als meine Kollege (m/w/d) in meine Schule finden könnte.
Ich bin übrigens selbst Quereinsteiger / Seiteneinsteiger (ich bin beim Unterschied nicht so ganz auf der Höhe).
Nein, weil inzwischen nahezu jede:r seiteneinsteigen kann und die Qualifikation dabei sekundär ist.
Sind Sie selbst einer- weil Sie von “Dummheit” sprechen- bitte korrekte und geschärfte Termini verwenden.
Seufz – nein, sind sie nicht.
ABER die meisten Lehrämtler haben gezielt auf das Lehramt mit seinen Studienanforderungen hin gelernt und sich die entsprechende Note erarbeitet.
Die meisten Quer- und Seiteneinsteiger haben das nicht, weil Lehramt in der Regel nicht ihr Ziel war.
Ihre Entscheidung für das Lehramt kam und kommt s p ä t e r.
Tja, die KI befindet sich halt im falschen Bundesland.
In dem Fall müssen die Prüfungskommissionen Aufgabenrypen entwickeln, die absehbar für eine ki unlösbar bleiben.
Dieselbe Studie möge man auch mal mit mathematisch-naturwissenschaftlichen Aufgaben wiederholen.
Warum müssen sie das. SchülerInnen dürfen zu solchen Prüfungen doch keine digitalen Geräte verwenden, oder?
Die Studie untersuchte die folgenden sprachlichen Kriterien:
“lexical diversity, sentence complexity, nominalization, presence of modals, epistemic and discourse markers”.
Die in der Studie gezeigten Unterschiede folgen den Ergebnissen von fast 40 Jahren Lernerkorpusforschung: Selbstverständlich ist Lernerenglisch anders, denn es entsteht auf einer im Vergleich zu ChatGPT winzigen Datengrundlage.
Thema ist hier weniger ChatGPT vs. Lerneressays, sondern learner writing vs. native writing, novice writing vs. expert writing (Alters-, Übungs- und Genreeffekte) usw. Insofern ist das Ergebnis natürlich komplett erwartbar und es ist wenig spektakulär, dass ChatGPT sprachlich besser abschneidet.
Unsbhängig davon bin ich aber natürlich damit einverstanden, dass Schulen sich mit ChatGPT auseinandersetzen sollen und müssen.
Es ist in der Tat beeindruckend, dass ein Sprachmodul Prüfungen mit einem signifkanten Sprachanteil und 35% AFB I (Reproduktion von _bekanntem Wissen_), 50% AFB II (Anwendung in _bekanntem Kontext_), und 15% AFB III (Transfer auf _unbekannten Kontext_) mit einer Zwei (bis 80%) besteht…
Ach, haben die eigentlich die ChatGPT Version für die Prüfung vom Internet getrennt? Ansonsten müsste man das auch mit Prüfungsleistungen mit Internetzugang vergleichen, denke ich.
Interessante Perspektive ist allerdings: Wenn die Bildung ChatGPT als neues Kompetenzzentrum der Menschheit wahrnimmt, was das für die Integration und den Nachteilsausgleich bedeutet…
Wie har die KI im Bereich Zitierweise abgeschnitten? Mein Verständnis ist, dass sie das nicht kann und damit dann ja eigentlich zumindest in AFBII glatt durchfallen muss.
Das sagt einiges über das Sprachmodell aus… oder das Abitur.
Schreibt Prüfungen auf hohem Niveau und kann nichtmal einen Nagel in die Wand schlagen.
Wenn es sich jetzt noch online beschwert, dass das Abitur es nicht auf das Leben vorbereitet, kann es eingebürgert werden 😛
War zu erwarten, dass sie sich so entwickelt. Evtl muss man in Aufsätzen jetzt doch nach einer eigenen Meinung fragen.
Was ändert das? Die KI kann auch eine Meinung vortäuschen.
Wenn ich sie frage, kommt, die einen meinen so, die anderen so. Sie bezieht keine klare Stellung bisher.
Dann nehm ich halt eines davon.
Zitat
„Mich hat überrascht, wie klar das Ergebnis ausgefallen ist“
Mich nicht. Ich lese Texte von SchülerInnen nämlich regelmäßig.
Thema verfehlt!
Bereits die Überschrift ist falsch. Das Abitur besteht nicht nur aus einem Aufsatz. Da eine KI nur die Aneinanderreihung wahrscheinlichster Begriffe liefert fehlt es an Tiefe. Die Erfahrung mit chatGPT in anderen Fächern zeigt deren völliges Versagen.
Bleiben wir doch auf dem Teppich. Die Generierung von aalglatten Texten ist erstaunlich, aber leider nicht wirklich intelligent. Ein fachlich versierter Lehrer wird mit wenigen Fragen eine Schülerin/einen Schüler sofort ertappen, wenn er es nicht verstanden hat, was die generative KI produziert hat.
KI kann als weiteres Tool den Unterricht bzw. die Lösung von (Haus-) Aufgaben bereichern, wie ein beherrschter Taschenrechner die Lösung mathematischer Rechnungen erleichtert. Das Lernen wird KI nicht ersetzen und das Lehren erst recht nicht, denn das ist ein Beziehungsvorgang zwischen Schülern und Lehrern.
Nur weil es neu ist, ist es weder gefährlich, noch die Lösung aller Probleme. Panik ist also die falsche Reaktion und Euphorie ebenso. Also bitte: Cool bleiben.
Sie schreiben zurecht : “Ein fachlich versierter Lehrer wird mit wenigen Fragen eine Schülerin/einen Schüler sofort ertappen”
Das wird wohl nur selten möglichsein.
Bei etwa 40 Wochen im Jahr in denen grundsätzlich Unterricht ist, lässt sich zwar annehmen, dass jede/r SuS einer Klasse im Jahr wenigstens einmal bzgl. der gemachten oder abgegebenen Hausaufgaben gequizzt wird, so dass man klassische Hausaufgabenunterstützung durch Freunde, Geschwister, Eltern oder moderne “Interviewpartner” wie Chat-Bots etc filtern kann.
So etwas geht aber nicht in jeder Stunde mit allen SuS.
Insofern scheint die Aufgabe in einer unüberwachten Lernsituation “Schreibe Aufsatz … etc” nicht ganz Aussagekräftig zu sein.
Aber – das war schon immer so bei “Standard-Klassen” – individual Unterricht ist eher die Ausnahme.
Und obwohl diese “Expertenhilfe” schon immer gegeben ist, gibt es hinreichend viele SuS, die ehrlich sind, und ihre Lösungen erarbeiten.
Etwas anderes will ich gar nicht als Grundannahme bei mir für mich zulassen.
Es geht ja eher um Referate, Hausarbeiten (keine Hausaufgaben) usw.
Zitat:
“ChatGPT besteht das bayerische Abitur – mit einer Zwei”
Ist das jetzt, weil ChatGPT so gut ist oder weil das Niveau des bayerischen Abiturs auch nicht mehr das ist, was es mal war.
Vielleicht sollte ChatGPT mal an Abis aus verschiedenen Jahrzehnten getestet werden. Traut sich da jemand ran oder könnten die Ergebnisse mehr offenbaren als gewünscht?