DÜSSELDORF. Die FDP im nordrhein-westfälischen Landtag will Korrekturen von Klassenarbeiten und Klausuren künftig im Regelfall durch Künstliche Intelligenz unterstützen lassen. Während die Liberalen darin eine spürbare Entlastung für Lehrkräfte und mehr Vergleichbarkeit bei Bewertungen sehen, widerspricht der Philologenverband deutlich: Er verweist auf pädagogische Grenzen sowie erhebliche Risiken automatisierter Verfahren.

Mit einem neuen Antrag im Landtag Nordrhein-Westfalen setzt die FDP-Landtagsfraktion auf einen grundlegenden Wandel bei der Leistungsbewertung an weiterführenden Schulen. Korrekturen von Klassenarbeiten und Klausuren sollen nach dem Willen der Fraktion künftig im Regelfall mithilfe Künstlicher Intelligenz erfolgen. Die Letztentscheidung über die Bewertung soll jedoch weiterhin bei der jeweiligen Lehrkraft verbleiben.
Franziska Müller-Rech, stellvertretende Vorsitzende der FDP-Landtagsfraktion NRW, begründet den Vorstoß mit der Arbeitsbelastung vieler Lehrkräfte. Dem „Kölner Stadt-Anzeiger“ sagte sie: „Viele Lehrkräfte berichten, dass sie sich an Klausuren und Klassenarbeiten regelrecht zu Tode korrigieren. Für gute Unterrichtsvorbereitung, individuelle Förderung und Gespräche bleibt kaum Zeit. Künstliche Intelligenz schafft hier eine echte, messbare Entlastung: Sie kann Antworten vorstrukturieren, Fehler markieren, Lernstände zusammenfassen. Dabei ersetzt die KI nicht die Lehrkraft. Es gilt ‚Human in the Loop‘. Pädagoginnen und Pädagogen treffen am Ende die Entscheidung und bleiben verantwortlich.“
„Durch die Zeitersparnis kommt Feedback außerdem schneller zurück, Lernlücken werden früher sichtbar, Lernfortschritte nachvollziehbar“
Darüber hinaus verbindet die FDP mit dem Einsatz von KI die Erwartung einer höheren Qualität und Nachvollziehbarkeit von Bewertungen. Müller-Rech erklärt: „Gleichzeitig hilft KI, Bewertungen qualitativ zu verbessern: Viele Schülerinnen und Schüler kennen das nagende Gefühl einer ungerechten Beurteilung. Warum ist meine Gedichtinterpretation schlechter benotet als die meiner Mitschülerin? KI kann konsequent entlang klarer Kriterien bewerten – das schafft Transparenz und Vergleichbarkeit. Durch die Zeitersparnis kommt Feedback außerdem schneller zurück, Lernlücken werden früher sichtbar, Lernfortschritte nachvollziehbar.“
Auf deutlichen Widerspruch stößt dieser Vorstoß beim Philologenverband Nordrhein-Westfalen. Der Verband lehnt eine grundsätzlich KI-gestützte Korrektur von Klassenarbeiten und Klausuren ab und sieht darin eine Verkürzung zentraler pädagogischer Aufgaben. In einer Stellungnahme heißt es, eine weitgehende Automatisierung der Leistungsbewertung greife zu kurz und gefährde fachliche wie pädagogische Standards.
Zwar erkennt der Verband an, dass KI-Systeme im schulischen Alltag unterstützend eingesetzt werden können. Sie könnten etwa bei der Analyse von Fehlern helfen, typische Schwächen identifizieren oder Formulierungen für Rückmeldungen vorschlagen. In diesem Sinne könne Künstliche Intelligenz durchaus zu einer Entlastung beitragen und Freiräume für individuelle Förderung schaffen.
Eine klare Grenze zieht der Philologenverband jedoch bei der eigentlichen Bewertung von Schülerleistungen. Die Landesvorsitzende Sabine Mistler betont: „Die abschließende Bewertung von Leistungen und insbesondere die Notenvergabe müssen jedoch uneingeschränkt in der Hand der Lehrkraft bleiben. Chatbots können fachliche und pädagogische Urteile nicht ersetzen, sondern allenfalls vorbereiten und begleiten.“
Der Verband verweist zudem auf eine Reihe von Risiken, die mit automatisierten Korrekturverfahren verbunden seien. Dazu zählen Fehlbewertungen ebenso wie Probleme beim Verständnis komplexer Argumentationen oder kreativer Lösungsansätze. Auch mögliche Verzerrungen in den Trainingsdaten der Systeme werden als Problem benannt. Aus Sicht des PhV ist insbesondere die pädagogische Dimension der Leistungsbewertung durch KI nicht abbildbar.
„Wer die Korrektur vollständig an Chatbots delegieren will, verkennt einen wesentlichen Baustein von Bildung“
Im Zentrum der Kritik steht dabei das professionelle Urteil der Lehrkraft, das über reine Fehleranalyse hinausgeht. Lehrkräfte seien in der Lage, Denkwege von Schülerinnen und Schülern nachzuvollziehen und Leistungen über längere Zeiträume hinweg einzuordnen. Diese Form der individuellen und ganzheitlichen Beurteilung lasse sich nicht automatisieren.
Parallel fordert der Verband klare rechtliche und ethische Rahmenbedingungen für den Einsatz von KI im Bildungsbereich. Dazu gehörten datenschutzkonforme Systeme, transparente Verfahren gegenüber Schülerinnen und Schülern sowie die Möglichkeit, KI-gestützte Vorschläge jederzeit zu überprüfen und zu korrigieren. Auch Fortbildungsangebote für Lehrkräfte werden als notwendig beschrieben.
Die Position der Lehrkräfte selbst stellt sich nach Angaben des Verbands differenziert dar. Ergebnisse aus Mitgliederbefragungen zeigten, dass viele Gymnasiallehrkräfte KI bereits punktuell nutzen. Gleichzeitig bestehe insbesondere bei der Leistungsbewertung eine deutliche Zurückhaltung.
Vor diesem Hintergrund plädiert der Philologenverband für einen begrenzten, prüfenden Einsatz von Künstlicher Intelligenz im Korrekturprozess. KI könne ein Werkzeug sein, nicht jedoch eine eigenständige Bewertungsinstanz. Landesvorsitzende Sabine Mistler formuliert es so: „Wer die Korrektur vollständig an Chatbots delegieren will, verkennt einen wesentlichen Baustein von Bildung: die verantwortliche, fachlich fundierte und pädagogisch sensible Beurteilung durch den Menschen.“ News4teachers









Hat jemand Erfahrungen mit dem (Vor-)Korrigieren durch KI-Systeme?
In mindestens einem meiner Fächer (Mathematik) kann ich mir nicht vorstellen, wie eine KI das formale, strukturelle und syntaktische Durcheinander selbst bei 5er-Klassenarbeiten durchblicken und dann bewerten will.
Ich lasse fast sämtliche Arbeiten seit knapp einem Jahr von der KI korrigieren. Nach anfänglichen Schwierigkeiten was die geeignetste KI und korrektes Prompting betrifft, funktioniert das in meinen Fächern (Informatik, Mathe) inzwischen in den meisten Fällen sehr gut.
Ja, ich muss mir jede Arbeit mit der KI-Korrektur noch einmal ansehen, aber die Zeitersparnis ist mit mindestens (!) 50% enorm. Meine Schüler finden das individuelle Feedback total klasse. Da die KI den Kids konkret sagt, was sie gut gemacht haben und wo sie Übungsbedarf haben, will niemand mehr das alte System mit Note und maximal ein bis zwei Sätzen unter der Arbeit.
Welche KI nutzen Sie und ist sie auf andere Fächer übertragbar?
Könnten Sie das bitte genauer erklären?
Meine Versuche der Korrektur von Schülerarbeiten mit Wolfram Alpha und anderen KIs scheitern immer wieder an der Interpretation von Schülerschreibweisen…
Vielen Dank,
Mika BB
Also ich muss 18+! Klassenarbeiten im Schuljahr schreiben. Dazu kommen noch um die 80! weitere schriftliche Leistungskontrollen. In meinem korrekturintensiven Fach geht einfach ein Großteil meiner Arbeitszeit für Korrekturen drauf. Und ganz ehrlich, so richtig sauber und transparent kann ich bei der Masse auch nicht mehr korrigieren. Natürlich setze ich die KI bei der Korrektur ein.
Am liebsten wäre es mir, wenn die KI vollständig korrigiert und ich lese dann einfach nur noch drüber und prüfe die Korrektur.
Ich verstehe nicht so ganz, wo die Entlastung liegt, wenn ich jede Schülerarbeit erst mal einscannen und hochladen muss, und anschließend eh jede einzelne Arbeit durchsehen und bewerten muss, um Verzerrungen durch die Trainingsdaten, Fehlinterpretationen der KI etc. auszuschließen.
Wenn ich als Lehrkraft die erteilte Note letztinstanzlich verantworte, muss ich die Arbeit selbst lesen und bewerten.
Hört sich für mich nach noch mehr Arbeit oder einen Haufen von Klageverfahren an.
Ich (E/D viel Oberstufe) habe das mal mit einer Nachschreibklausur ausprobiert. Inhaltlich und durchaus auch bei der Darstellungsleistung konnte ich mich der KI weitgehend anschließen, aber sie kann ja nicht den Rotstift halten und schreiben. Und rechtlich ist das eh so eine Sache. Ich kann mir das in Englisch bei Multiple Choice und Vokabeltests usw. gut vorstellen, alles andere ist mir rechtlich zu heikel bzw. ist aus oben genannten Gründen nich nicht praktikabel.
Wenn man einen sehr guten Erwartungshorizont hat und die KI vorher mit Musterbeispielen gefüttert hat, dann kommen passable Ergebnisse bei raus. Aber wie der Kollege schon geschrieben hat. Einmal muss ich alles sowieso noch lesen und die Bemerkungen muss ich auch selber schreiben.
Der Punkt ist, dass ich aufgrund des Umfangs für eine normale Korrektur mit Gutachten mindestens eine Stunde benötige. Je nachdem auch mehr. Da bin ich mit der KI tatsächlich schneller.
und dann sagt die eine KI zur anderen. Meiomei, des hast aber schön geschrieben.
KI kann Captchas nicht lösen, aber Klassenarbeiten korrigieren.
Maximales Inkompetenzlevel auf Seiten der deutschen Politik, dieser Tage für alle sichtbar. KI generiert nur Schrott, wenn keine ausreichenden Trainingsdaten vorhanden sind.
Die haben bestimmt nicht mal KI gefragt wie hoch der Energiebedarf für KI Training ist, und wie sehr er mit jedem Training ansteigt. Und sind weiterhin ignorieren sie, oder sind so ahnungslos, oder wollen den Leuten was vormachen, die auf uns zukommende größte Energie- und Wirtschaftskrise seit dem 2. Weltkrieg.