Leistungsbeurteilung in der Schule: Methoden im Vergleich

Die traditionellen Methoden der Leistungsbeurteilung beziehen sich auf die Produktion von Aufgabenlösungen. Die jedoch meist verbalen Antworten sind sehr schwer objektiv auszuwerten. Daher wurden bei objektiven Tests zunehmend Antworten vorgegeben, aus denen richtige auszuwählen waren. Seitdem wird darüber gestritten, ob Antwort-Auswahl-Aufgaben mit gebundener Antwortform dasselbe messen und bewirken wie Produktionsaufgaben mit freier Antwortform.

Gebundene Aufgabenform

Die Antwort-Auswahl-Aufgaben mit gebundener Aufgabenform hat Vor- und Nachteile.

Vorteile:

einfachere Auswertung
höhere Verrechnungssicherheit, weil die Zusammenfassung bzw. Kategorisierung der Antworten entfällt

Nachteile:

Lösung kann erraten werden (bei 4 Antwortvorgaben liegt die Ratewahrscheinlichkeit noch bei 25 %)
ergeben sich, wenn aufgrund der Aufgabenstellung selbstständig Antworten produziert werden sollen, wie z.B. bei Kreativitätsaufgaben
oder wenn verschiedene Lösungsstrategien angewendet werden können, aber ein eindimensionales Merkmal erfasst werden soll
Vorgabe der Falschantworten wirkt sich negativ auf die Gedächtnisleistung aus

Die Einstellung gegenüber Antwort-Auswahl-Aufgaben sind sehr unterschiedlich. Abgelehnt werden sie in der populärwissenschaftlichen Literatur. Es wird behauptet, dass dabei nur das Wiedererkennen von Gedächtnisinhalten verlangt werde, also nur isoliertes Faktenwissen. Es könne kein Verständnis von Zusammenhängen oder eigenes Urteilen überprüfen. Zudem würden sich die Schüler auf oberflächliches Wissen einstellen und demgemäß lernen. Die Gleichsetzung von Wiedererkennen und Erinnern wird von der Kognitionspsychologie jedoch nicht bestätigt. Reproduzieren und Wiedererkennen unterscheiden sich aber auch nicht grundsätzlich hinsichtlich der Gedächtnisprozesse. Es hängt viel mehr davon ab, wie die spezifischen Aufgaben konstruiert worden sind.

Äquivalenz von Tests und traditionellen Prüfungen

Bei der Forschung zur Äquivalenz von Tests und traditionellen Prüfungen ergibt sich nicht die Bestätigung, dass unterschiedliche kognitive Merkmale gemessen werden. Untersuchungen stellten fest, dass die neuen Testtypen sich als mindestens so gültig gezeigt haben wie Prüfungsaufsätze.

Ingenkamp fasst zusammen:
»Überblickt man diese Forschungsergebnisse, so sprechen sie überwiegend dafür, dass objektive Tests die gleichen Fähigkeiten und Leistungen erfassen können, wie sie in den meisten üblichen Schulprüfungen einschließlich der Aufsätze erfasst werden. […] Wir schließen daraus nicht, dass Antwort-Auswahl-Aufgaben als einziger oder vorherrschender Prüfungstyp benutzt werden sollte, wir stellen … nur fest, dass das gängige Vorurteil, diese Testaufgaben könnten niedrige, traditionelle Prüfungen und Aufsätze dagegen vorwiegend höhere kognitive Leistungen erfassen, […] nicht haltbar ist« (Ingenkamp 1978a, 132f.).

Äquivalenz unterschiedlicher Testformen

Ende des 20. Jahrhunderts stand verstärkt die Frage im Mittelpunkt, ob ein Test mit frei zu beantwortenden Aufgaben die gleichen Messqualitäten wie ein Test mit Antwort-Auswahl-Aufgaben hat. Die Gleichwertigkeit oder Äquivalenz unterschiedlicher Testformen bezog sich auf den Schwierigkeitsgrad der Aufgaben, die Reliabilität des ganzen Tests und die gemessenen kognitiven Merkmale. Nach Hogan sind die verschiedenen Aufgabenformen einander gleichwertig oder nahezu gleichwertig, wobei die Antwort-Auswahlform reliabler auszuwerten sei. Eine Untersuchung von Demetropoulos stützt die Äquivalenzhypothese. Das Aufgabenformat scheint keinen Einfluss auf die Testleistung zu haben. Voraussetzung ist aber, dass beide Aufgabenformen dasselbe messen und die Testpersonen auf die Testaufgaben vorbereitet sind.

Der Gleichwertigkeit der Aufgabenformen widersprechen jedoch Traub und MacRury. »Die von der uns zur Verfügung stehenden empirischen Forschung unterstützte Schlussfolgerung lautet, dass Antwort-Auswahl und Freie-Antwort-Tests – ob letztere eine Kurzantwort oder eine Aufsatzantwort verlangen,scheint unwesentlich –, etwas unterschiedliche Wissens- und Fähigkeitsstrukturen erfassen« (Traub & MacRury 1990, 143). Dieses Problem wird durch die Bündelung beider Aufgabenformen zu einem Diagnoseinstrument gelöst, wie es in den großen Schulleistungsvergleichsuntersuchungen TIMSS und PISA praktiziert wurde.

Äquivalenz von konventionellen Papier-Bleistift- und Computer-Tests

Durch das steigende Angebot an computerunterstützten oder -gestützten Testversionen kam die Frage auf nach der Äquivalenz von konventionellen Papier-Bleistift- und Computer-Tests. Die Erwartungen hinsichtlich Objektivität, Reliabilität, Teilnehmermotivation und Testökonomie waren zu Beginn hoch. Die empirischen Studien ergaben aber insgesamt widersprüchliche Ergebnisse. Papier-Bleistift-Tests sind im Vergleich mit computerunterstützten Tests relativ gleichwertig, wenn sie mit mäßigem Zeitdruck bearbeitet werden sollen. Bei Test mit strengem Zeitlimit ist die Äquivalenz am niedrigsten. Zudem ist die optische Präsentation der Aufgaben ein Grund geringer Gleichwertigkeit.

Wirkungen der Beurteilungsformen

Untersucht wurde außerdem, inwiefern Tests oder traditionelle Prüfungsarbeiten im Hinblick auf Prüfungsvorbereitung oder nachfolgende Lernvorgänge Unterschiedliches bewirken. Traub und MacRury verneinen mögliche Leistungsunterschiede. Allerdings seien Interesse und Studierverhalten von der Erwartung einer bestimmten Testform abhängig. Lernende hatten gegenüber Antwort-Auswahl-Aufgaben eine positive Einstellung, weil »… diese Tests leichter vorzubereiten und zu lösen sind und Hoffnung auf bessere Ergebnisse in Aussicht stellen« (Traub & MacRury 1990, 155). Die Richtung der Beeinflussung blieb dennoch unbestimmt.

(6 Bewertungen, Durchschnitt: 5,00 von 5)

Weitere Themen: