Psychometrie

1 Psychometrische Bewertung

Psychometrische Tests haben die Intelligenztests ein Jahrhundert lang dominiert. Das entscheidende Merkmal dieses Ansatzes ist seine empirische Grundlage; „psychometrisch“ bezieht sich einfach auf die quantitative Bewertung psychologischer Zustände/Fähigkeiten. Während die quantitative Bewertung auf einer massiven Messtechnik beruht, sind ihre theoretischen Grundlagen dürftig, was sich in ihren Ursprüngen widerspiegelt. Die ersten Tests, die Einfluss auf die heutigen intellektuellen Messverfahren haben, gehen direkt auf die Studien von Alfred Binet und Kollegen in Frankreich zurück (Cronbach 1984). Im Jahr 1904 wurde Binet beauftragt, ein Mittel zur Unterscheidung zwischen bildungsfähigen und nicht bildungsfähigen Schülern in dem relativ neuen allgemeinen Bildungssystem zu entwickeln. Nach der Untersuchung von Schädel-, Gesichts-, Handflächen- und Handschriftindizes entdeckte Binet die direkte Messung komplexer intellektueller Aufgaben, die das Urteilsvermögen, das Verständnis und das logische Denken betrafen und mit denen sich die Schüler am besten unterscheiden ließen. Ausgehend von diesen pragmatischen Anfängen definierte Binet Intelligenz als die Fähigkeit, eine Richtung einzuschlagen und beizubehalten, Anpassungen vorzunehmen, um ein gewünschtes Ziel zu erreichen, und die Leistung selbstkorrigierend zu überwachen. Diese Definition, die nur wenig ausgearbeitet wurde, ist immer noch die Richtschnur für das psychometrische Paradigma.

Typischerweise bestehen moderne psychometrische Tests aus verschiedenen Untertests, die verschiedene Aspekte des lose definierten Intelligenzkonstrukts erfassen. Beispielsweise können Skalen Untertests enthalten, die ein breites Spektrum an Wissen abfragen (z.B. die Namen von Objekten, Daten, historische und geographische Fakten) und von den Prüflingen verlangen, farbige Blöcke so zusammenzusetzen, dass ihr Muster einem vorgegebenen Muster ähnelt (Sattler 1992). Auch hier gilt, dass die Auswahl der Untertests nicht durch theoretische Vorgaben bestimmt ist. Die Untertests werden ausgewählt, weil sie funktionieren – in Kombination dienen sie dazu, Personen danach einzustufen, wie viel sie wissen und wie gut sie bei der Lösung bestimmter Probleme sind. Die pragmatische Auswahl der Untertests basiert auf Binets Konzept der Intelligenz als einer allgemeinen oder undifferenzierten Fähigkeit (g), so dass die Aufgaben, die g abfragen, im Prinzip austauschbar sind.

Das Herzstück psychometrischer Tests ist die Normreferenzierung (Sattler 1992). Normreferenzierte Tests werden entwickelt, indem die Items in standardisierter Weise einer repräsentativen Stichprobe der betreffenden Population vorgelegt werden. Die Normstichprobe gilt insofern als „repräsentativ“, als sie innerhalb der Altersgruppen nach Variablen geschichtet ist, die die Leistung unterschiedlich beeinflussen könnten, wie Geschlecht, geografische Region, ethnischer Status, Gemeindegröße usw. Die Werte werden so skaliert, dass der abgeleitete Wert jeder Person eine relative Stellung innerhalb der Norm- oder Standardisierungsgruppe darstellt. In diesem Sinne ist psychometrisches Testen ein empirisches Unterfangen im reinsten Sinne: Als vergleichendes Konstrukt besteht wenig Notwendigkeit, über die genaue Natur der Intelligenz zu theoretisieren.

Wie bereits erwähnt, enthalten die meisten modernen psychometrischen Tests unterschiedliche Aufgaben. Ursprünglich wollte man damit sicherstellen, dass g umfassend erfasst wird. Im Laufe der Zeit machten sich Kliniker jedoch die Multiaufgabenkonstruktion von Intelligenztests zunutze, um intraindividuelle Unterscheidungen zu treffen (Kaufman 1990). Indem sie die Variabilität zwischen Untertests oder Gruppen von Untertests betrachteten, stellten die Prüfer Hypothesen über relative intellektuelle Stärken und Schwächen auf. Zum Beispiel könnte ein bestimmter Proband bei Gedächtnistests besser abschneiden als bei Aufgaben, die das Begriffsvermögen betreffen. Es ist jedoch wichtig, darauf hinzuweisen, dass sich die Analyse der intraindividuellen Unterschiede erst im Nachhinein entwickelt hat; solche Vergleiche werden eher von den praktischen Gegebenheiten der verfügbaren Untertests als von einer detaillierten Theorie über die Struktur der Intelligenz bestimmt.

Die empirische Grundlage der psychometrischen Bemühungen birgt sowohl Schwächen als auch Stärken. Was die Grenzen betrifft, so sind Versuche, intraindividuelle Unterschiede auf der Grundlage einer pragmatisch gewählten Auswahl von Untertests zu interpretieren, empirisch nicht validiert (Reschly 1997). Darüber hinaus hat der atheoretische Ansatz bei der Aufgabenauswahl zu einer eingeschränkten und unvollständigen Erfassung des Intelligenzbereichs geführt (Chen und Gardner 1997). So werden beispielsweise musikalische und zwischenmenschliche Fähigkeiten vernachlässigt. Stattdessen liegt der Schwerpunkt auf Fähigkeiten, die durch akademisches Lernen erworben wurden, ein Ergebnis, das in den westlichen Mainstream-Gesellschaften geschätzt wird. Kritiker bemängeln daher, dass psychometrische Tests kaum mehr als die Leistung messen; sie bewerten, was ein Prüfling gelernt hat, und nicht sein Lernpotenzial.

In diesem Zusammenhang und verstärkt durch die Praxis, die individuelle Intelligenz mit Bezug auf eine Normgruppe zu definieren, sind Fragen nach Verzerrungen aufgrund von (sub)kulturellen, ethnischen, lebenserfahrenen und motivationalen Unterschieden aufgekommen. Dies wird zu einem sozialen Problem, wenn Prüflinge aus Minderheitengruppen mit einer Normstichprobe verglichen werden, deren Kontext, Werte und Lernerfahrungen sich von ihren eigenen unterscheiden (Suzuki und Valencia 1997). Dadurch wird der ursprüngliche Zweck von Tests, objektive Daten über die intellektuelle Leistungsfähigkeit einer Person zu liefern, verraten und stattdessen atypische Prüflinge diskriminiert.

Eine weitere Schwierigkeit bei psychometrischen Tests besteht darin, dass sie zwar in der Regel untereinander stark korrelieren, dies aber nicht immer der Fall ist (Daniel 1997). Die Korrelationen können dadurch beeinflusst werden, welche Aufgaben enthalten sind und wie sie gewichtet werden. Ein vielleicht noch größeres Problem ist die Tatsache, dass selbst in Fällen, in denen die Testergebnisse hoch korrelieren, ein und dieselbe Person bei verschiedenen Instrumenten abweichende Ergebnisse erzielen kann, weil die Tests an unterschiedlichen Normierungsgruppen ausgerichtet sind.

Ein entscheidender Kritikpunkt an psychometrischen Tests ist, dass die aus diesen Instrumenten abgeleiteten Empfehlungen nachweislich nicht zu einer besseren Förderung der Prüflinge führen (Reschly 1997). Auch dies kann darauf zurückgeführt werden, dass der Inhalt dieser Skalen nicht nach einer Theorie der Intelligenz, der Gehirnfunktion oder der Pädagogik ausgewählt wurde.

In anderer Hinsicht sind psychometrische Tests erfolgreich gewesen. Obwohl die Testaufgaben pragmatisch ausgewählt werden, gruppieren sie sich in bemerkenswert ähnlicher Weise in verschiedenen Tests und Studien, was einen Einblick in die Struktur der Intelligenz ermöglicht. Auf der Grundlage statistischer Verfahren, bei denen die Untertests entsprechend den zugrunde liegenden Gemeinsamkeiten in Gruppen zusammengefasst werden (Faktorenanalyse), wurden drei Intelligenzschichten ermittelt (Carrol 1997). Auf der obersten Schicht befindet sich ein allgemeiner Faktor, g. Unter diesem Faktor ist eine zweite Schicht von allgemeinen Faktoren zusammengefasst, darunter „fluide“ und „kristallisierte“ Intelligenz. (Die fluide Intelligenz umfasst die Fähigkeit, mit Neuem umzugehen und flexibel zu denken. Kristalline Intelligenz umfasst die Speicherung und Nutzung von deklarativem Wissen wie Vokabular oder Informationen.) Jedem allgemeinen Faktor ist eine Reihe von engeren Fähigkeiten untergeordnet, wie z. B. „Induktion“ und „Leseverständnis“. Die Kenntnis dieser unterschiedlichen, aber voneinander abhängigen Schichten kann die Konstruktion neuer psychometrischer Instrumente leiten.

Eine weitere Stärke des psychometrischen Ansatzes ergibt sich aus seiner Betonung quantitativer Methoden; Psychometriker bemühen sich sicherzustellen, dass ihre Tests zuverlässige und gültige Prädiktoren für die Leistung sind (Sattler 1992). Der Begriff „Zuverlässigkeit“ bezieht sich auf die Konsistenz der Messung; je zuverlässiger eine Messung ist, desto geringer ist der Fehler bei den daraus abgeleiteten Schätzungen. Viele psychometrische Tests weisen eine extrem hohe interne Zuverlässigkeit (das Ausmaß, in dem die einzelnen Teilergebnisse des Tests mit dem Gesamtergebnis des Tests korrelieren) und eine kurzfristige „Test-Retest“-Zuverlässigkeit (ein Index für die Stabilität, der sich aus der mehrmaligen Durchführung des Tests bei derselben Gruppe von Personen ergibt) auf. Darüber hinaus hat sich die langfristige Stabilität des IQ als beeindruckend erwiesen, mit guten Vorhersagen über einen Zeitraum von 20 Jahren. Auch die Validität dieser Tests hat sich als stark erwiesen. Validität“ bezieht sich auf das Ausmaß, in dem ein Test das misst, was er messen soll. Die Ergebnisse von Intelligenztests korrelieren mit dem Umfang der Schulbildung, der Qualität der in der Schule geleisteten Arbeit, dem beruflichen Status und der Leistung in der Arbeitssituation (obwohl die Stärke der letzteren Vorhersage umstritten ist), sowohl gleichzeitig als auch prädiktiv. Zusammenfassend lässt sich sagen, dass die psychometrische Messung trotz ihrer schwerwiegenden Einschränkungen zuverlässige und gültige Schätzungen der intellektuellen Leistungsfähigkeit liefert. Psychometrische Tests sind genaue Klassifizierer und Prädiktoren, wenn sie in einem begrenzten Kontext mit Sorgfalt eingesetzt werden.

Alai

1 Psychometrische Bewertung

Schreibe einen Kommentar Antworten abbrechen