War ChatGPT am Werk? Plagiatsforscherin: „Müssen überdenken, wie wir Leistung messen“

22

BERLIN. Seit Ende 2022 ist ein großer Hype um KI-Textgeneratoren entstanden. Damit einher geht die Sorge, dass sich Studierende auf diese Weise Vorteile verschaffen. Eine Plagiatsforscherin geht von verbreiteter Nutzung aus und rechnet nicht mit technischen Gegenmitteln.

Gab’s Unterstützung von oben? Illustration: Shutterstock

Es ist wohl die Spitze des Eisbergs, die da zu Tage getreten ist: Im vergangenen Jahr sind in einzelnen wissenschaftlichen Arbeiten deutliche Hinweise auf den Einsatz von Textgeneratoren auf der Basis von Künstlicher Intelligenz (KI) gefunden worden. Zum Beispiel vermeintliche Quellenangaben, die bei genauerem Hinsehen nicht existierten, weil sie wohl von der KI erfunden worden waren. Oder Texte aus der ChatGPT-Benutzeroberfläche, die von den Verfassern offensichtlich versehentlich mit in ihre Arbeit hineinkopiert wurden. Etwa die frühere Schaltfläche «Regenerate Response» («Antwort erneuern») – deshalb wurde eine Mathe-Studie sogar zurückgezogen, wie im September 2023 in einem «Nature»-Nachrichtenbeitrag zu lesen war.

Als Problem gilt KI-Text-Nutzung insbesondere dann, wenn sie nicht transparent gemacht wird. Wenn also womöglich Leistungen vorgetäuscht werden. Die Frage nach dem Umgang mit der Technologie stellt sich auch an Hochschulen, seit ChatGPT Ende 2022 veröffentlicht wurde und einen KI-Hype auslöste. Das Programm und weitere ähnliche Angebote können auf Befehle hin Texte auf dem Sprachniveau von Menschen formulieren und beispielsweise Informationen zusammenfassen. Von menschlicher Intelligenz sind sie laut Fachleuten bisher aber weit entfernt.

Studie: KI-Detektoren scheitern oft

Inzwischen gibt es Programme, mit denen man KI-Texten auf die Schliche kommen können soll. Ist damit Schluss mit Schummeln? Keineswegs, meint eine Expertin. «Die Hoffnung, dass es eine einfache Softwarelösung zum Enttarnen von KI-Texten gibt, wird sich nicht erfüllen», sagte die Berliner Plagiatsforscherin Debora Weber-Wulff (Hochschule für Technik und Wirtschaft). «Es gibt zwar sehr viel angebliche Detektoren-Software, aber sie tut nicht das, was sie soll.» Manche der Hersteller wiesen auch selbst auf Mängel und Grenzen hin.

An einer Studie, für die 14 angebliche KI-Detektoren getestet wurden, hat Weber-Wulff mitgearbeitet. Demnach lieferten diese Tools keine verlässlichen Ergebnisse, wenn es um die Frage ging, ob ein Mensch oder eine Maschine einen Text verfasst hat. Davon berichtete das Forschungsteam Ende Dezember im «International Journal for Educational Integrity». «In unsicheren Fällen neigen die Systeme dazu, menschliche Verfasser anzunehmen», erklärte Weber-Wulff. «Denn es ist natürlich nicht gewollt, dass Leute zu Unrecht beschuldigt werden. Das wäre im Bildungsbereich auch katastrophal.»

Plagiate einfacher nachzuweisen

Die Studie macht aber als Kernproblem aus, dass rund jeder fünfte mit KI erzeugte Text nicht als solcher erkannt wurde. Die Rate nicht von den Programmen erkannter KI-Nutzung steigt laut der Studie weiter an, wenn der KI-Text vom Menschen noch überarbeitet wurde. Die Ergebnisse der Detektoren seien für Durchschnittsnutzer auch nicht einfach zu interpretieren: Manche lieferten eine Prozentangabe zur Wahrscheinlichkeit, dass der Text von einem KI-Tool produziert worden sei. Konkrete Belege fehlten – so dass es Hochschulen sehr schwer haben dürften, auf der Grundlage Fehlverhalten nachzuweisen. «Anders als bei Plagiaten ist ja keine Gegenüberstellung mit dem Original möglich», sagte Weber-Wulff.

Zu etwaigen bisherigen Verstößen von Studierenden, die einen KI-Einsatz nicht deklarierten, lagen der für Wissenschaft zuständigen Berliner Senatsverwaltung keine Informationen vor, wie es auf Anfrage hieß. Weber-Wulff kennt nach eigenen Angaben aber Fälle, in denen Lehrende Verdacht schöpften und Studierende die KI-Verwendung einräumten. Dass diese KI-Textgeneratoren «auf breiter Front» nutzten und wohl auch häufig kein Unrechtsbewusstsein hätten – davon sei auszugehen. «Es ist ein großes Problem, dass die Universitäten dazu bisher schweigen. Wir müssten klarstellen: Was wollen wir, was erlauben wir und was nicht?»

In der Studie über Detektoren halten die Fachleute fest, dass höhere Bildungseinrichtungen nicht darauf vorbereitet gewesen seien, wie schnell und radikal sich frei zugängliche KI-Tools verbessert hätten. Die Anwendung sei auch nicht zwangsläufig immer unethisch.

Hochschulen denken über berlinweite Strategie nach

Berliner Hochschulen beobachteten die Entwicklung aufmerksam und man diskutiere an den Einrichtungen über den Umgang mit dem Einsatz von beispielsweise ChatGPT in Lehre und Forschung, teilte ein Sprecher der Landeskonferenz der Rektoren und Präsidenten (LKRP) auf Anfrage mit. Zwar setze man sich auch mit Lösungen und Möglichkeiten auseinander, um durch KI erzeugte Inhalte in Forschung und Lehre zu erkennen. Im Fokus stehe «aber insbesondere die Frage nach einem zukunftsfähigen Umgang mit den Möglichkeiten, die KI-basierte Tools bieten». «Auch über eine gemeinsame berlinweite Strategie wird nachgedacht, diese liegt aber noch nicht vor.»

Bisher gibt es individuelle Handreichungen zum Thema. In einem Eckpunktepapier der Freien Universität Berlin zum Beispiel wird klargestellt, dass die Lehrenden selbst entscheiden können, ob und wie sie die Tools einsetzen. Zur Pflicht darf dies bisher nicht gemacht werden. Zu Prüfungen heißt es: Sofern KI-basierte Tools nicht ausdrücklich dafür zugelassen seien, täuschten Studierende durch deren Einsatz über die Eigenständigkeit ihrer Leistung.

Weber-Wulff bemängelte, dass eine gemeinsame Ombudsstelle der Hauptstadt-Hochschulen für gute wissenschaftliche Praxis bisher nicht existiert, obwohl deren Einrichtung 2021 im Berliner Hochschulgesetz festgeschrieben wurde. Die Stelle sollte zum Beispiel auf Antrag von Hochschulen Einzelfälle prüfen und wäre aus Sicht der Informatikerin geeignet, sich auch der KI-Fragen anzunehmen. Laut LKRP ist die gemeinsame Stelle derzeit in Planung, einen genauen Zeitplan gebe es aber noch nicht. An den drei großen Unis und der Charité etwa stehen jedoch Ombudspersonen zu guter wissenschaftlicher Praxis bereit.

Stärkere Vorbeugung und Transparenz gefordert

«Wir müssen sehr stark überdenken, wie wir Leistung messen», forderte Weber-Wulff. Das kann heißen, dass Aufgaben künftig ganz anders als bisher gestellt werden sollten. Zum Beispiel, dass es darum geht, Fehler in Antworten von KI-Tools zu finden. Weber-Wulff nennt sie «Papageien»: Sie plapperten nur nach, was sie einmal gehört hätten. Wichtig sei daher, Studierenden die Standards akademischen Schreibens zu vermitteln, etwa den Sinn von Fußnoten. Wenn KI-Systeme genutzt würden, sei ein transparenter Umgang damit geboten. «Und man muss die volle Verantwortung für allen Mist übernehmen, der vom System produziert wurde. Keine Ausreden.» Von Gisela Gross, dpa

Erzwingt ChatGPT eine neue Leistungsbewertung in Schulen? Debatte kocht hoch

Anzeige


Info bei neuen Kommentaren
Benachrichtige mich bei

22 Kommentare
Älteste
Neuste Oft bewertet
Inline Feedbacks
View all comments
AA-Stiftung
1 Monat zuvor

Bei nicht in der Schule anzufertigenden Prüfungsleistungen bleibt nichts anderes übrig als die mündliche Verteidigung der Arbeit. Ich sehe da kein Problem.

Canishine
1 Monat zuvor
Antwortet  AA-Stiftung

Beispiel Facharbeiten in der Oberstufe: Bei z.B. 90 SuS einer Stufe eine zusätzliche mündliche Prüfung?

AA-Stiftung
1 Monat zuvor
Antwortet  Canishine

Ist halt genauso wie die mündlichen Prüfungen als Klausurersatz in den Fremdsprachen. Das Problem ist also lösbar, zumal es auf mehr Schultern als nur die Fremdsprachenlehrer verteilt ist.

Canishine
1 Monat zuvor
Antwortet  AA-Stiftung

Es ist zusätzliche Arbeitszeit (zur Korrektur der Facharbeit), kein Ersatz anstatt einer Klausur. Und diese Arbeitszeit muss geleistet werden, ob von Vielen oder Wenigen.

AA-Stiftung
1 Monat zuvor
Antwortet  Canishine

Ich meinte auch nur die Analogie. Die Betreuung einer Facharbeit ist auch aufwändiger als das Stellen und Korrigieren einer Klausur.

Sepp
1 Monat zuvor
Antwortet  Canishine

Es wird bei uns in den Seminarfächern so gemacht, dass die Facharbeiten auch präsentiert werden und es dann Fragerunden dazu gibt – mit Benotung.
Das macht aber nicht eine Lehrkraft für alle SuS, sondern es gibt drei Seminarfächer, bei denen die betreuenden Lehrkräfte die Präsentationen bewerten.

Canishine
1 Monat zuvor
Antwortet  Sepp

Diese Präsentation und Nachfrage bei Facharbeiten wird aber meines Wissens nach nicht durch die Prüfungsordnung NRW gedeckt.

AA-Stiftung
1 Monat zuvor
Antwortet  Canishine

Ein Referat als weitere sonstige Mitarbeit wird nicht verboten sein.

ed840
1 Monat zuvor
Antwortet  AA-Stiftung

Wird das bisher etwa gar nicht gemacht? Bei solchen Arbeiten hatten doch Schüler mit entsprechenden finanziellen Möglichkeiten bisher auch schon die Möglichkeit sich „Berater“ einzukaufen. Da schafft die KI dann vielleicht etwas mehr „Waffengleichheit“ zwischen reich und arm als früher.

AA-Stiftung
1 Monat zuvor
Antwortet  ed840

In NRW ist ein zusätzliches Referat als Teil der Bewertung meines Wissens offiziell nicht zulässig, auch wenn ich es bisher immer so gemacht habe. Da jedes Mal die Endnote dadurch um einen Punkt besser wurde, hat sich bislang niemand beschwert.

Finagle
1 Monat zuvor
Antwortet  AA-Stiftung

Eine schriftliche Leistungsüberprüfung in Form einer Klassenarbeit/LEK/Klausur ist eine Möglichkeit des Leistungsnachweises. Alternativen waren schon immer möglich – jedenfalls in Berlin.

Katze
1 Monat zuvor

Es sollte jede Prüfungsleistung (schriftlich oder mündlich) ausschließlich in der Schule unter Aufsicht der menschlichen Experten erbracht und bewertet werden.
Oder soll die „Arbeit“ der KI die schriftliche Prüfungsnote anteilig pampern? Wozu?
Zur Vorbereitung der Eigenleistung kann jede Quelle genutzt werden. Dann zeigt sich, wie sinnvoll die Nutzung von KI zum Aufbau eigener fachlicher Kompetenzen (Fakten- und Formelkenntnisse sowie anwendungsbereite Fertigkeiten) z.B. im MINT-Bereich ist.

Meine Schüler und Schülerinnen, welche das Abitur vor der Digitalisierung erwarben, hatten höhere fachliche Kompetenzen und experimentelle Fähigkeiten im Bereich Biologie und Chemie.

Geliefert wie bestellt! Ein Hoch auf die KI-gestützte Noteninflation.

2024: Abi (1,0), aber zu blöd für die Uni.

Hans Malz
1 Monat zuvor
Antwortet  Katze

Interessant wäre es auch das Prompting zu bewerten. Dann sehe ich, ob die Schüler die richtigen Fragen stellen und wie sie auf (manchmal auch falsche) Antworten reagieren. Der Denkprozess wird damit gut abgebildet.

Muellerin
1 Monat zuvor
Antwortet  Katze

Aber was ist mit Bachelor- und Masterarbeiten an der Uni? Die stehen in den Prüfungsordnungen. Da konnte man bisher auch schon was im Internet kopieren, aber jetzt kann man ganze Arbeiten von KI schreiben lassen und braucht nur noch den sprachlichen Stil zu modifizieren.

Lisa
1 Monat zuvor
Antwortet  Muellerin

So einfach ist es nicht. Nicht nur der sprachliche Stil ist korrigierenswert, sondern sie schreibt auch manchmal “ einen rechten Sch….“ Und erfindet Quellen. Wer sich als Student darauf verlassen will, ist verlassen. Das Problem ist, dass die Korrektur für den Professor wirklich viel mehr Arbeit ist. Er hat früher evtl korrigiert, ob korrekt zitiert wurde, konnte jedoch davon ausgehen, dass die zitierten Texte existieren. Jetzt müsste er viel detaillierter nachprüfen. Und in Zukunft wird die KI immer perfekter werden.

Sepp
1 Monat zuvor
Antwortet  Katze

Gerade in Chemie und Biologie sind die bisherigen KI-Tools nicht sinnvoll. Ich habe spaßeshalber mal Vorschläge für Facharbeitsthemen erstellen lassen und dann immer weiter gefragt, wie man das untersuchen könnte, welche Methoden es da gibt usw.
Das ist recht schnell in völligen Unsinn umgeschlagen und die angeblichen Literaturstellen gab es nicht.

Gerade bei Facharbeiten mit Experimenten hätten die Schüler ja auch gar keine Daten, wenn sie nicht zumindest selbst experimentierten. Diese Daten dann zu beschreiben und auszuwerten wird mit KI schon schwierig.
Insofern mache ich mir weniger Sorgen, sofern die Facharbeiten experimentelle Aufgaben enthalten.

Unfassbar
1 Monat zuvor
Antwortet  Sepp

Die ko entwickelt sich derzeit schnell weiter. Chatgpt Version 8 könnte sinnvolle Dinge inkl. Daten ausgeben. Experimentelle arbeiten vor Ort wären da ein ausweg.

SuSanne
1 Monat zuvor
Antwortet  Katze

Nanana, nicht blöd, zu unfertig.
Also mit noch großem Entwicklungs-potential!

Musketier
1 Monat zuvor

Mündliche Prüfung aus dem Homeoffice heraus.
gibt es woanders auch, sogar Bewerbungsgespräche!

Der Zauberlehrling
1 Monat zuvor

Bei mir gab’s mal einen Unterpunkt „Historische Aspekte des Problems“ auf einer Themenvorgabe zu einer Facharbeit.

Kommt die Schülerin an und teilt mir mit, dass sie da überhaupt nichts gefunden hat. Sie hätte es auch genau so in Google eingegeben.

Autsch. Ist schon einige Jährchen her.

Falsche Strategie. Völlig falsch.

Wissen und Kompetenz sind keine Substitutionsgüter. Ohne Wissen auch keine sinnvolle Anwendung von ChatGPT und sonstigen LLMs.

Ich muss merken, wenn die Kiste anfängt Mist zu labern.

mimü
1 Monat zuvor

Einige schlagen hier mündliche Anschlussprüfungen vor, bei denen man mangelndes Verständnis aufdecken könnte. Könnte man machen. Die Realität sieht bei uns anders aus. Von der SL kommt die Vorgabe, dabei nicht nach Lücken zu suchen. Manche KuK sind völlig außerstande, in Präsentationen weniger als 10 Punkte zu geben und werden von der SL für ihre 13-Punkte-Schnitte auch noch gelobt. Als ich mal vorgeschlagen habe, Seminararbeiten von Plagiatsprüfprogrammen checken zu lassen, wollte das niemand haben. Es ist ja auch viel einfacher, nichts zu tun und gute Noten zu geben. Alle sind happy.

Katze
1 Monat zuvor
Antwortet  mimü

So ist es. Flach, flacher am flachsten. Beste Noten bei niedrigstem Anspruch und geringster Anstrengung, alles auf Mittelmaß ziehen – das sind die beliebtesten Lehrer vieler SL, Eltern und Schüler. Und dann den Fachkräftemangel beklagen.

Ich kann gar nicht mehr so viel essen, wie ich … könnte.