Zur Diskussion: Gegen “blinde Flecken” – Warum wir Schulstatistik, Vergleichsarbeiten und zentrale Prüfungen brauchen

11

BERLIN. Schulstatistik, Vergleichsarbeiten und die „Qualitätsanalyse“ gelten unter Lehrern als Folterwerkzeuge einer wildgewordenen Bildungsverwaltung. Tatsächlich gab es eine Zeit ohne – vor dem PISA-Schock existierte (bis auf das Zentralabitur in einigen Bundesländern) praktisch keinerlei Kontrolle von Unterrichtsergebnissen. Ein paradiesischer Zustand? Oder letztlich doch eine Ursache für das schlechte Abschneiden der deutschen Schulen im damaligen Leistungsvergleich? Mit dem folgenden Gastbeitrag von Gerd Möller, einem ehemaligen leitenden Mitarbeiter des Schulministeriums von Nordrhein-Westfalen, eröffnen wir die Diskussion: Wird die Sau auch ohne Wiegen fett? Teil zwei des Beitrags erscheint in einigen Tagen auf News4teachers

Wie genau muss der Blick auf Schule sein? Foto: Shutterstock

Evidenzbasierte Steuerung im Schulbereich: Anspruch und Wirklichkeit

Chancen und Grenzen empirischer Bildungsforschung

Von Gerd Möller

Anzeige


Im Zuge der „empirischen Wende“ in der Bildungspolitik und Bildungsplanung nach den für Deutschland schlechten Ergebnissen in den internationalen Vergleichsuntersuchungen (PISA, TIMMS) hat sich in allen Ländern ein breites Spektrum von empirisch orientierten Vorhaben zur Qualitätssicherung und Qualitätsentwicklung entfaltet. Diesen Vorhaben liegt das Anliegen zugrunde, neben „Systemwissen“, als Basis einer fundierten, rationalen und wirksamen Bildungsplanung, handlungsleitendes Wissen für die Schul- und Unterrichtsgestaltung unter Berücksichtigung empirischer Verfahren zu gewinnen

Das Konzept der evidenzbasierten Steuerung im Schulbereich ist eine Adaption aus der Medizin. Der Begründer der Evidence-based Medicine, David L. Sackett, definiert das Konzept wie folgt: „Es ist die bewusste, ausdrückliche und verständige Nutzung der jeweils besten Evidenz bei der Entscheidung über die Versorgung individueller Patienten. Ihre Praxis beinhaltet die Integration individueller klinischer Kenntnisse mit der jeweils besten externen Evidenz aus systematischer Forschung“. Der Begriff der Evidenzbasierung meint grob vereinfacht so viel wie „auf gesicherten wissenschaftlichen Befunden beruhend”. Der hier verwendete Begriff der Evidenz unterscheidet sich also von einem alltagssprachlichen Verständnis, bei dem Evidenz im Sinne von „etwas auf der Hand Liegendes” oder „Offensichtliches” gefasst wird.

Gemeint ist dabei allerdings nicht jedes verfügbare Forschungswissen, sondern Forschungswissen, das bestimmten strengen wissenschaftlichen Kriterien und Standards genügt. Als systematische Forschung gelten dabei kontrollierte Studien, mit Zufallsstichproben arbeitende klinische Versuche. Auf den Bildungsbereich übertragen bedeutet dies: Tests, quasi-experimentelle Interventionsstudien und Fragebogenerhebungen, kurzum: das ganze Instrumentarium der quantitativen und qualitativen Methoden. Als höchster Standard wird dabei Forschungswissen bewertet, das mit Hilfe systematischer Reviews bzw. Metaanalysen, also zusammenfassender Analysen verschiedener Untersuchungen in einem thematischen Gebiet, sowie randomisierter kontrollierter Studien generiert wird.

Lehren und Lernen ist immer Auch Beziehungsarbeit zwischen Menschen

Ein Vergleich der Forschungsbereiche von Medizin und Pädagogik macht deutlich, dass sich das Konzept der evidenzbasierten Medizin nicht einfach auf den Bildungsbereich übertragen lässt. Während der menschliche Körper sich zum Teil mit naturwissenschaftlichen Methoden untersuchen lässt, trifft dies nicht auf pädagogische Prozesse zu. Es geht im Bildungsbereich nicht wie in der Medizin um physiologische Phänomene, die vielfach in Ursache-Wirkung-Zusammenhänge zerlegt werden können, sondern um ein komplexes, heterogenes und dynamisches soziales Aktionsfeld mit unterschiedlichen Rahmenbedingungen. Lehren und Lernen ist immer auch Beziehungsarbeit zwischen Menschen unter unterschiedlichen Randbedingungen.

Zudem steht im Bildungsbereich die Forschung im Vergleich zur Medizin vor einigen nur schwer überwindbaren Herausforderungen in der Anlage der Studien. Eine konsequente Randomisierung durch z. B. zufällige Zuordnung von Schülerinnen und Schüler zu Klassenverbänden und Lehrkräften oder die Kontrolle von potentiell relevanten Einflussfaktoren über längere Zeiträume, wie z. B. in den Kontexten Elternhaus, Freundeskreis, Klasse und Schule ist nur eingeschränkt durchführbar.

Aussagen über Zusammenhänge zwischen Einflussfaktoren und Bildungsergebnissen können nur im Rahmen einschränkender Modellannahmen gemacht werden, denn es ist kaum möglich, die unterschiedlichen Randbedingungen und intervenierenden Faktoren in einer größeren Zahl zu kontrollieren. Die realen Bedingungen des Bildungssystems unterscheiden sich prinzipiell in verschiedener Hinsicht von denen, die in der Forschung untersucht werden können.

Aus wissenschafts- und erkenntnistheoretischer Sicht kann es prinzipiell kein endgültig gesichertes Forschungswissen geben. Folgt man K.R. Popper, dem bedeutenden Philosoph des kritischen Rationalismus, so können wir durch strenge experimentelle Prüfungen niemals die Wahrheit von Theorien endgültig – z.B. durch induktives Schließen – beweisen, sondern lediglich zeigen, welche Theorien wiederholt bei strengen Prüfungen bestätigt wurden oder gescheitert sind. Oder überspitzt formuliert: der aktuelle Stand der Wissenschaft ist vielleicht nur der derzeit gültige Irrtum von morgen.

W. Stegmüller argumentiert, dass gesichertes Wissen (Evidenz) nicht von subjektiver Gewissheit unterschieden werden kann. Unterscheidungen wären nur anhand von Unterscheidungskriterien möglich. Wird aber ein solches Kriterium angenommen, „so scheint dies zu einem unendlichen Regress zu führen: dass in einem vorgegebenen Falle von Gewissheit die in dem Kriterium verlangten Merkmale vorliegen, muss ja selbst nicht bloß mit subjektiver Gewissheit, sondern mit Evidenz festgestellt werden“ (Stegmüller 1989, S. 48).

Zudem sind statistische Befunde – auch unter Anwendung der elaboriertesten Methoden – immer interpretationsbedürftig. Daten ohne Berücksichtigung des Kontextes und einer dahinter stehenden Theorie sagen nichts aus. Wer lediglich auf Studienergebnisse schaut, ohne die Fragestellungen, die zugrunde liegende Theorie, das Design der Datenerhebung und die getroffenen Kontextannahmen zu berücksichtigen, läuft schnell Gefahr, unzulässige Schlüsse zu ziehen. Auch die Verwendung verschiedener Auswertungsmethoden auf gleiche Erhebungsdaten kann zu unterschiedlichen Befunden führen.

Oft wird die Ergebnisrichtung schon durch den Aufbau der Studien vorweggenommen. Das erkenntnisleitende Interesse, wie Habermas es nennt, bestimmt die Herangehensweise. Entsprechende Modelle und Prämissen legen von vornherein bestimmte Interpretationen nahe. Der Glaube an die Möglichkeit einer neutralen, objektiven, wert- oder ideologiefreien Wissenschaft ist selber nicht ideologiefrei.

Es wäre aber vorschnell, daraus den Schluss zu ziehen, dass empirische Befunde für konkrete Handlungssituationen in der Bildungspolitik und in bestimmten Schulen und Klassen mit unterschiedlichen Schülern unbrauchbar oder gar überflüssig wären, wie es der häufig zitierte Satz „Vom Wiegen wird die Sau nicht fett“ zu suggerieren versucht. Es lohnt sich also, genauer hinzuschauen, welches Wissen von der empirischen Bildungsforschung zur Verfügung gestellt wird und wie die beteiligten Akteure – mit ihren jeweiligen eigenen Systemlogiken – damit umgehen.

Unser Wissen im beruflichen Kontext basiert vorwiegend – vereinfachend ausgedrückt – zum einen auf persönlichem und institutionellem Erfahrungswissen und zum anderen auf Wissen, das von außen an uns herangetragen wird. Sich nur auf das eigene Erfahrungswissen zu verlassen, birgt die Gefahr in sich, dass „blinde Flecken“ in unserem Tätigkeitsbereich entstehen. Auch Kollegien und administrative Einheiten können blinde Flecken haben. Akteurinnen und Akteure im Schulbereich müssen vielfältige Leistungen in einem komplexen Handlungsfeld erbringen, ohne dass sie direkt erfahren, was sie nicht sehen können. Sie agieren häufig, wie es Bourdieu einmal ausgedrückt hat, „wie Eingeborene“ – eingeboren in ihrer Praxis.

Zu den wirkmächtigsten Faktoren professioneller Entwicklung zählt Feedback zur gegenwärtigen Handlungspraxis (siehe Hattie). Solche Rückmeldungen sind aber nur auf der Basis von konkreten Evaluationen zu erhalten. Im komplexen und sensiblen Schulbereich sollten daher interne und externe Beobachtungen bzw. wissenschaftliche Evaluationen mit entsprechenden Rückmeldungen Bestandteile der professionellen Tätigkeit sein und als Ausgangspunkt für professionelle Weiterentwicklung der schulischen Qualität genutzt werden.

In Deutschland steht ein Bündel von datengenerierenden Instrumenten der Qualitätssicherung und Qualitätsentwicklungen zur Verfügung, die Informationen auf der Ebene der Einzelschule und des Schulsystems liefern und somit Schul- und Unterrichtsentwicklung anstoßen können. Darüber hinaus gibt es eine selbst für Wissenschaftler kaum noch überschaubare Fülle von nationalen und internationalen Studien mit belastbaren Befunden innerhalb des gesamten Bildungsbereichs, die als Orientierungswissen für eine erfolgreiche Weiterentwicklung in den Schulen genutzt werden könnten.

Teil zwei des Beitrags erscheint in einigen Tagen auf News4teachers.

Beispiele für Erhebungsinstrumente zur Wissensgenerierung

Auf der Ebene der Einzelschule

  • Schulstatistik (Amtliche Schuldaten) mit diversen Indikatoren, wie Wiederholerquoten, Schulformwechsler, Übergangsquoten, Schulabschlüsse
  • Zentrale Prüfungen: ZP 10 und Abitur
  • Zentrale Lernstandserhebungen VERA 3 und 8
  • Qualitätsanalyse
  • Interne Evaluationen

Auf Systemebene

  • Schulleistungsstudien, wie PISA, IGLU, TIMSS, IQB-Ländergleiche
  • Vertiefende und ergänzende Studien auf der Basis von Schulleistungsstudien, wie z.B. COACTIV
  • Nationale und internationale Studien mit spezifischen Untersuchungszielen, z.B. Studien der Schuleffektivitätsforschung

Auch auf der Facebook-Seite von News4teachers wird der Beitrag diskutiert.

Die Diskussion auf der Facebook-Seite von News4teachers läuft heiß.

Star-Bildungsforscher Hattie im News4teachers-Interview: “Es gibt nicht ‘die’ Unterrichtsmethoden, die per se eine hohe Wirksamkeit haben”

Anzeige


11 KOMMENTARE

  1. Wenn die Testunfen ergeben, dass Investitionen ins Bildungssystem notwendig sind und kleinere Klassen eine bessere Förderung ermöglichen, wird das nicht akzeptiert. Nur wenn man den Lehrern einen Strick drauß drehen kann wird es angeprangert. Inzwischen üben alle extra für Vera und Co. Learning to the test oder auch Bulimielernen kann man das dann nennen.
    Statt das Bildungssystem zu verbessern werden jetzt nach den letzten Vera Ergebnissen die Klassengrößen hochgesetzt. Lehrer werden bestraft für das Versagen der Schulpolitik (Bedarfsbewertung, zu wenig Lehrer ) 30 Kinder in einer Klasse mit den heutigen Kindern wird sicher nicht zu besseren Ergebnissen führen.

  2. Der Autor verneint im Bereich der Bildungspolitik die wissenschaftliche Vergleichbarkeit von unterschiedlichen Lehrmethoden bezogen auf sehr große Schülerkollektive.
    Das ist definitiv falsch, denn je so größer die untersuchte Stichprobe der Schuler ist, desto mehr gleichen sich die unterschiedlichen Gewichtungen der anderen Einflussfaktoren in den Vergleichsgruppen an. Bezogen auf Kleinststudien werden natürlich auch andere Einflussfaktoren einen größeren Einfluss auf die Ergebnisse haben. Das gilt aber auch für den Bereich der Medizin.
    Lehren und Lernen stünden unter dem Einfluss einer individuellen Beziehung zwischen Schüler und Lehrer. Das gilt in gleicher Weise aber auch für den Bereich der Medizin und der Psychologie.
    Deshalb werden auch sehr viel größere Untersuchungskollektive gebildet, wodurch die Varianz der Ergebnisse abnimmt, d.h. die Streuung um den Mittelwert nimmt mit der Zahl der untersuchten Personen ab, wenn ein Effekt der Methode vorhanden ist.
    Auch im Bereich der Medizin machen sich unterschiedliche Einflussfaktoren, wie etwa die Arzt-Patientenbeziehung, auf die Heilung und Wirkung von Medikamenten bemerkbar, was spätestens bei der Berücksichtigung von Arzneimittelunverträglichkeiten untereinander deutlich wird.
    So bewirkt man durch die Einnahme von Johanneskraut, ein anscheinend nicht so harmloses Medikament aus der Homöopathie gegen Schlafstörungen und Unruhe, eine Enzyminduktion bzw. die Aktivierung des Enzyms Cytochrom 450 (Cytochrom 450 ist ein Enzym zum Abbau von Giftstoffen), und somit werden bei einem Patienten mit einem Zustand nach Organtransplantation die wichtigen Medikamente zur Immunsuppression, hier Cytostatika, verstärkt abgebaut und schließlich das Spenderorgan vom Immunsystem des Empfängers abgestoßen.
    Ein Erkenntnisgeleitetes Interesse wird bereits bei der Stichprobengröße erkennbar, wo sich der interessengeleitete Einfluss des Untersuchers stärker bemerkbar macht, als wenn viele unterschiedlich begabte Lehrer diese verglichenen Methoden auf die Schüler anwenden.
    Das ist in der Medizin auch nicht anders, wenn die Studie klein ist.
    Aber ich erinnere mich auch gut an die Nachuntersuchungen zur “Vereinfachten Ausgangsschrift” des Erfinders Prof. Grünwald durch Herrn Prof. Topsch, dem es gelang zahlreiche systematische Fehler in der Stichprobenzusammensetzung, der Auswertung und der Interpretation durch Grünbaum nachzuweisen. Gleiches gilt auch für die propagierte Grundschrift des Grundschulverbands, die sich zum Teil auf Kleinststudien stütz, sowie Studien, die in keinem Bezug zur Methode stehen, und somit dem interpretatorischen Freiraum der Hauptvertreter zu nie dagewesenen “Ergebnissen “verhalf, sowie zu nicht zutreffenden Aussagen verleitete, welche wiederum dann durch einen Psychologen aus Bayern wiederlegt wurden.

  3. Gerd Möller ist ein der GEW nahe stehender und inzwischen pensionierter leitender Beamter im Düsseldorfer Kultusministerium.
    Natürlich lassen sich unterschiedliche Unterrichtsmethoden bei entsprechend großen Stichproben, ebenso wie in der Psychologie und der Medizin, auch in der Schulpädagogik miteinander vergleichen.
    Offensichtlich befürchtet man durch unangenehme Vergleichsstudien in der beruflichen Freiheit eingeengt zu werden. Ineffektive Methoden werden sich einer kritischen Betrachtung gewiss sein, erst recht wenn diese sich durch eine hohe Ineffektivität negativ auf die Lernerfolge der Schüler auswirken.

    • Dazu kommt das Risiko, dass moderne Unterrichtsmethoden als ineffizienter als lehrerzentrierter Frontalunterricht ohne jegliche Differenzierung sein können. Das wollen insbesondere GEW-nahe Personen unbedingt vermeiden.

  4. Ich verstehe nicht, dass mir indirekt unterstellt wird, dass ich “unangenehme Vergleichsstudien” (Ignaz Wrobel) verhindern möchte. Im Gegenteil: ich plädiere für solche Studien, gebe aber aus erkenntnistheoretischer Sicht zu bedenken, dass damit keine “endgültigen Wahrheiten” geschaffen werden können, da es kaum möglich ist, die unterschiedlichen Randbedingungen und intervenierenden Faktoren in einer größeren Zahl zu kontrollieren. Somit können Aussagen über Zusammenhänge zwischen Einflussfaktoren und Bildungsergebnissen nur im Rahmen einschränkender Modellannahmen gemacht werden. Die realen Bedingungen des Bildungssystems unterscheiden sich prinzipiell in verschiedener Hinsicht von denen, die in der Forschung untersucht werden können. Dies gilt für alle empirischen Forschungen (auch für die Naturwissenschaften).
    Trotz dieser prinzipiellen Einschränkungen plädiere ich im Gegensatz zu den mit unterstellten Aussagen von einigen Diskutanten für die Nutzung empirischer Forschungsbefunde: Im komplexen und sensiblen Schulbereich sollten interne und externe Beobachtungen bzw. wissenschaftliche Evaluationen mit entsprechenden Rückmeldungen Bestandteile der professionellen Tätigkeit sein und als Ausgangspunkt für professionelle Weiterentwicklung der schulischen Qualität genutzt werden.
    Zu den wirkmächtigsten Faktoren professioneller Entwicklung zählt Feedback – wie auch Hattie herausgefunden hat – zur gegenwärtigen Handlungspraxis.

    • Ihr Kommentar hört sich in Bezug auf große verbleichende Studien zu Unterrichtsmethoden aber schon ganz anders an, als es ihr eingestellter Artikel oben vermittelt.

  5. Lieber AvL, es gibt noch einen 2. Teil meines Artikels (wie angekündigt durch die Redaktion). Hier wird es deutlicher werden, warum und wie die empirischen Befunde genutzt werden können.
    Im ersten Teil habe ich mich lediglich mit der Problematik aus erkenntnis- und wissenschaftstheoretischer Sicht beschäftigt.
    Aber noch eine konkrete Frage zu Ihren Anmerkungen: Durch welche Formulierung verneine ich “im Bereich der Bildungspolitik die wissenschaftliche Vergleichbarkeit von unterschiedlichen Lehrmethoden bezogen auf sehr große Schülerkollektive”?

    • Sie formulierten: Aus wissenschaft- und erkenntnistheoretischer Sicht kann es prinzipiell kein endgültig gesichertes Forschungswissen geben.
      Diese Formulierung verstand ich falsch.
      Näherungsweise erhält man mit der zunehmenden Größe einer Studie, dem multizentrischen Aufbau der Studie, sowie der Vorausplanung der Ein- und Ausschlüsse in die Vergleichsstudie genauere bzw. evidente Ergebnisse, die mit an hoher Wahrscheinlichkeit ein reales Bild der Wirkung von einzelnen Einflussgrößen, hier Methoden, abbilden.
      Man kann sich aber darauf einigen, dass sich mit einem zunehmenden Stichprobenumfang und geplanten groß angelegten multizentrischen Studien, valide Ergebnisse in Bezug auf die Wirksamkeit bestimmter Methoden gewinnen lassen.
      Nach dem selben Prinzip verfährt man auch in der Medizin.
      Das Studiendesign muss klar dargestellt werden, Ausschlussfaktoren benannt werden, damit die Ergebnisse für jeden transparent werden.
      Die aus den großen multizentrischen Studien gewonnen Ergebnisse, stellen sich als dem demzeitigen wissenschaftlichen Stand des Wissens, als evident dar.

    • Danke für den Link.
      So manches medizinische Verfahren, dass von Experten relativ einseitig betrachtet und zu sehr kritiklos auf Grund von einseitiger Betrachtungsweise betrieben wird, wird dann wohl in Zukunft selbst in Frage gestellt werden.
      Am Ende stehen immer noch die Gerichte, die bei entsprechendem Risiko einer medizinischen Methode, deren unkritische Ausbreitung und Anwendung limitieren werden, sei es auf Grund einer fehlenden oder unzureichenden Aufklärung, oder dem nicht jedem Praktizierenden in gleicher weise manuell erlernbaren praktischen Können.
      Man kann schließlich auch mit allerlei Nadeln oder Skalpellen, anwenderabhängig gute Methoden in Misskredit bringen.

    • Ich bedanke mich auch für den Link und die kritische Auseinandersetzung mit EBM…
      … und bin gespannt auf den 2. Teil mit den praxisrelevanteren Aussagen.

Schreibe einen Kommentar zu AvL Antwort abbrechen

Please enter your comment!
Please enter your name here