Artikelserie: FernUniCamp Teil 3 – Validität

Abbildung 1. Facetten der Validität.Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird.

Im folgenden Statistikblog wird die Validität thematisiert. Dabei werden wir verschiedene Facetten der Validität kennen lernen.

(Teil 1 zentrale statistische Kennwerte, Teil 2 Reliabilität)

Aber was ist die Validität eigentlich? Laut Bühner (2011) gibt die Validität an, ob ein Test wirklich das misst, was er zu messen beansprucht. Es wird also festgestellt ob bspw. ein Sprachtest tatsächlich sprachliche Fähigkeiten misst und nicht räumliches Denken.

In der Forschungsliteratur wird die Validität häufig in drei Validitätsarten (siehe Abbildung 1) unterteilt: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität. Nachfolgend werden diese Arten näher erläutert, zudem werden Gründe für eine mangelnde Validität genannt und es wird kurz auf den Zusammenhang zwischen der Reliabilität und der Validität eingegangen. Beispielhaft wird das Vorgehen zur Validitätsbestimmung der drei Validitätsfacetten, anhand der bereits bekannten Skala „Einheit und Vielfalt“ des Konnektivismus (Blog Reliabilität), beschrieben.

Inhaltsvalidität

Ein Test, der sich aus verschiedenen Indikatoren bzw. Items zusammensetzt, wird als inhaltsvalide bezeichnet, wenn jedes einzelne Item das zu messende Konstrukt hinreichend abbildet. Für die im FernUnicamp erhobene Skala „Einheit und Vielfalt“ des Konnektivismus würde das beispielsweise bedeuten, dass die Wissenschaftlerin sich im Vorfeld darüber Gedanken machen muss, ob einzelne Fragen, die die Skala bilden, die theoretischen Annahmen zu dieser Skala auch tatsächlich repräsentieren.

Die Inhaltsvalidität wird nicht anhand eines numerischen Kennwerts festgestellt, sondern durch logische und fachliche Überlegungen (Bühner, 2011). Diese subjektive Bewertung ist oftmals ein schwieriges Unterfangen, da es für bestimmte Eigenschaften unzählige Indikatoren gibt. Es sollte also gut begründet werden, warum für die o. g. Skala (Blog Reliabilität) genau diese Fragen bzw. Items formuliert wurden.

Ein konkretes Vorgehen, zur Bestimmung der Inhaltsvalidität, stammt von Murphy und Davidshofer (2001): 1. Zuerst sollte die inhaltliche Ebene des Konstrukts beschrieben werden. 2. Anschließend muss festgelegt werden, welche Items welchen Inhaltsbereich abbilden. 3. Zuletzt wird die Textstruktur mit der Struktur des Konstrukts verglichen.

FernUniCamp-Beispiel: Angewendet auf die Skala „Einheit und Vielfalt“ lassen sich folgende Schritte beschreiben: 1. Was ist mit „Einheit und Vielfalt“, als eine Dimension des Konnektivismus, gemeint? An dieser Stelle sind Arbeitsdefinitionen, d.h. ein theoretisches Verständnis eines Konstrukts, das der Forschungsarbeit zugrunde liegt, ratsam. Ebenso ist die Untersuchung bestimmter Teile eines umfangreichen Konstrukt sinnvoll, da es sonst denn Umfang einer Arbeit möglicherweise sprengen würde. 2. Welche Items bilden diese Skala am treffendsten ab? Hier spiele theoretische, empirische und logische Überlegungen eine wichtige Rolle. 3. Wenn auf theoretischer Ebene bestimmte Items „zusammengehören“, da sie eine Dimension abbilden, dann sollte eine Faktorenanalyse ein eindimensionales Resultat ergeben (demnächst gibt es dazu einen Blog zur Faktorenanalyse).

Kriteriumsvalidität

Bei der Kriteriumsvalidität werden die Resultate eines Tests in Verbindung mit anderen Kriterien gebracht. Kurze Anmerkung zum Begriff Test: Im Alltag wird der Begriff Test oft als Synonym für Leistungstests (z.B. einen Mathematik-, oder einen Sprachtest) gebraucht, im wissenschaftlichen Kontext wird aber auch jede Art von Fragebögen als Test verstanden, die ein theoretisches Konstrukt untersuchen. Je nach Zeitpunkt ergeben sich dabei unterschiedliche Arten der Kriteriumsvalidität (Bühner, 2011): – prognostische Validität: Testleistungen sollten mit Kriterien, die später erhoben werden, z.B. einen Mathematiktest vor dem Studium und als Kriterium die Abschlussnote des Mathematikstudiums, miteinander in Beziehung stehen. Dieses „miteinander in Beziehung stehen“ wird auch als Korrelation bezeichnet. Eine hohe Korrelation bedeutet, dass es eine enge Beziehung gibt. – konkurrente Validität: Hier wird der Test zeitgleich mit dem Kriterium erhoben. Bei einer Deutschklausur könnte beispielsweise kurz vorher ein Sprachtest durchgeführt werden, sodass anschließend die Korrelation zwischen der Deutschnote und der Testleistung ermittelt werden kann. –retrospektive Validität: Bei diesem Vorgehen werden Korrelationen mit zeitlich länger zurückliegenden Kriterien betrachtet.

Bei der inkrementellen Validität spielt der Zeitaspekt keine Rolle. Bei dieser Validitätsart interessiert, ob ein Test einen zusätzlichen Beitrag zur Verbesserung der Vorhersage eines Konstrukt leisten kann und das im Vergleich zu bestehenden Testverfahren. Zum Beispiel können Intelligenztests gut den Berufserfolg prognostizieren. Würde ein neues Testverfahren, das neben der Intelligenz auch das Sprachverständnis prüft, den Berufserfolg genauer vorhersagen, dann gäbe es einen zusätzlichen (Zuwachs = Inkrement) Beitrag zur Validität.

FernUniCamp-Beispiel: Wenn ein hoher Wert auf der Dimension „Einheit und Vielfalt“ dafür steht, dass im Rahmen des Konnektivismus vielfältige Gegebenheiten bevorzugt werden, dann sollten diese Personen z.B. auf zukünftigen FernUniCamps beobachtet werden können, wie sie sich mit Personen aus verschiedenen Bereichen unterhalten, zudem sollten diese Personen das vielfältige Angebot der Sessions nutzen. Allerdings handelt es sich um ein ideales Beispiel, da es u.a. aus Datenschutzgründen schwierig ist Daten von Personen bei einem FernUniCamp zu sammeln (die Person müsste z.B. damit einverstanden sein, dass sie beobachtet wird und das ihre Leistungen aus einem vorigen Test zu ihrer Person zugeordnet werden dürfte).

Konstruktvalidität

Einige Autoren subsumieren unter der Konstruktvalidität alle Arten der Validität zusammen. Nach diesem Verständnis ist ein Test konstruktvalide, wenn ein Test die Eigenschaft oder Fähigkeit misst, die er beansprucht zu messen (Moosbrugger & Kelava, 2012). Bei einem engen Begriffsverständnis der Konstruktvalidität fallen darunter nur die konvergente, diskriminante und faktorielle Validität. Bei der konvergenten Validität geht es darum, dass ein Test eine hohe Korrelation zu anderen Tests aufweisen sollte, die ein ähnliches theoretisches Konstrukt untersuchen. Dies steht im diametralen Verhältnis zur diskriminanten Validität. Hier geht es um den Vergleich von einem Test mit anderen Tests, die aber ein anderes theoretisches Konstrukt untersuchen. Test die verschiedene Konstrukte erfassen sollten nicht bzw. gering miteinander korrelieren. Wenn es um die konstruktnahe Zusammenfassung von Items geht und wenn es um die Trennung von kosntruktfremden Bereichen geht, dann spielt die faktorielle Validität eine wichtige Rolle (geplanter Blog zur Faktorenanalyse).

FernUniCamp-Beispiel: Würde die Skala „Einheit und Vielfalt“ niedrige Korrelationen zu Skalen aufweisen, die ebenfalls von sich beanspruchen dieses Dimension des Konnektivismus zu erfassen, dann müsste die bestehende Skala bearbeitet werden. Sofern es sich bei der Bezugsskala um eine reliable und valide Skala handelt. Im Idealfall sollte ein

Abbildung 2. Kriteriumskontamination und -defizienz.

Gründe für mangelnde Validität 

An dieser Stelle werden die Kriteriumskontamination und –defizienz (siehe Abbildung 2), als Gründe genannt, die die Validität negativ beeinflussen können (Bühner, 2011). Bei der Kriteriumskontamination misst das eingesetzt Messinstrument nicht das beabsichtige Konstrukt. Ein Test der Intelligenz erfassen soll, kann u.U. durch mangelnde Motivation, oder Unbehagen während der ungewohnt Testsituation, kontaminiert sein. Das Messinstrument erfasst diese Aspekte mit, obwohl sie nichts mit Intelligenz zu tun haben. Bei der Kriteriumsdefizienz fehlen wichtige Aspekte eines Konstrukts. Wenn der Umsatz eines Unternehmens ausschließlich durch die örtliche Lage erfasst werden würde, dann würden wichtige Faktoren nicht einbezogen werden bzw. die örtliche Lage als alleiniger Faktor für den Umsatz wäre defizient. Der Umsatz kann ebenfalls von dem Teamklima, der Arbeitszufriedenheit und auch der Führung der Vorgesetzten abhängen.

Reliabilität und Validität

Eine geringe Reliabilität (Blog Reliabilität) deutet auf eine geringe Messgenauigkeit hin. Ein Test mit einer einer geringen Messgenauigkeit kann auch nicht vollumfänglich das messen, was er zu messen beansprucht. Ein solcher Test hat deshalb eine geringere Validität. Ein Testverfahren kann also nicht den Anspruch erheben ein sehr valides Messinstrument zu sein, wenn die Reliabilität mangelhaft ist.

 

 

Literatur

Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3. aktual. Aufl.). München: Pearson Studium.

Moosbrugger, H., & Kelava A. (2012). Testtheorie und Fragebogenkonstruktion (2. aktuell. Aufl.). Berlin: Springer-Verlag. doi: 10.1007/978-3-642-20072-4

Murphy, K. R., & Davidshofer, C.O. (2001). Psychological testing principles and applications (5th edition). Upper Saddle River, NJ: Prentice Hall.

 

Artikelserie: FernUniCamp Teil 2 – Reliabilität

Abbildung 1: Verschiedene Methoden zur Reliabilitätsschätzung,Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird.

Im zweiten Teil des Statistikblogs richtet sich der Fokus auf die Reliabilität bzw. auf die Methode der internen Konsistenz, da sie für die Bestimmung der Reliabilität häufig verwendet wird.

(Teil 1: zentrale statistische Kennwerte)

Jede empirische Messung kann mit zufälligen und systematischen Messfehlern verbunden sein. Systematisch verzerrte Messungen treten z.B. dann auf, wenn die Befragten nicht ihre tatsächliche Meinung, sondern eine „sozial erwünschte“ Antwort abgeben. Zufällige Messfehler haben dagegen zur Folge, dass dieselbe Messung bei der gleichen Untersuchungseinheit mal zu einem höheren und mal zu einem niedrigeren Wert führt, obwohl sich der tatsächliche Wert der gemessenen Eigenschaft nicht verändert hat.

So soll ein Intelligenztest möglichst fehlerfrei die Intelligenz messen und sonst nichts anderes. Dabei kann die Reliabilität, wie durch diesen Blog verdeutlicht, mit verschiedenen Methoden erfasst werden.

Die Reliabilität bezeichnet die Messgenauigkeit einer Erfassung, in unserem Fall der Umfrage zum FernUniCamp. Mit anderen Worten ermöglicht uns die Reliabiltät Einblicke in die Zuverlässigkeit unserer Messergebnisse, die wir mit bestimmten Methoden erhoben haben.

Nachfolgend werden mit der internen Konsistenz, der Retest– und der Paralleltestmethode drei Methoden vorgestellt, mit denen die Reliabilität geschätzt werden kann. Diese Methoden sind für die Schätzung der Reliabilität als gleichwertig anzusehen. Je nach Fragestellung ergeben sich für die jeweiligen Methoden verschiedene Vor- und Nachteile (siehe Abbildung 1, Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird).

Continue reading