Artikelserie: FernUniCamp Teil 3 – Validität

Abbildung 1. Facetten der Validität.Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird.

Im folgenden Statistikblog wird die Validität thematisiert. Dabei werden wir verschiedene Facetten der Validität kennen lernen.

(Teil 1 zentrale statistische Kennwerte, Teil 2 Reliabilität)

Aber was ist die Validität eigentlich? Laut Bühner (2011) gibt die Validität an, ob ein Test wirklich das misst, was er zu messen beansprucht. Es wird also festgestellt ob bspw. ein Sprachtest tatsächlich sprachliche Fähigkeiten misst und nicht räumliches Denken.

In der Forschungsliteratur wird die Validität häufig in drei Validitätsarten (siehe Abbildung 1) unterteilt: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität. Nachfolgend werden diese Arten näher erläutert, zudem werden Gründe für eine mangelnde Validität genannt und es wird kurz auf den Zusammenhang zwischen der Reliabilität und der Validität eingegangen. Beispielhaft wird das Vorgehen zur Validitätsbestimmung der drei Validitätsfacetten, anhand der bereits bekannten Skala „Einheit und Vielfalt“ des Konnektivismus (Blog Reliabilität), beschrieben.

Inhaltsvalidität

Ein Test, der sich aus verschiedenen Indikatoren bzw. Items zusammensetzt, wird als inhaltsvalide bezeichnet, wenn jedes einzelne Item das zu messende Konstrukt hinreichend abbildet. Für die im FernUnicamp erhobene Skala „Einheit und Vielfalt“ des Konnektivismus würde das beispielsweise bedeuten, dass die Wissenschaftlerin sich im Vorfeld darüber Gedanken machen muss, ob einzelne Fragen, die die Skala bilden, die theoretischen Annahmen zu dieser Skala auch tatsächlich repräsentieren.

Die Inhaltsvalidität wird nicht anhand eines numerischen Kennwerts festgestellt, sondern durch logische und fachliche Überlegungen (Bühner, 2011). Diese subjektive Bewertung ist oftmals ein schwieriges Unterfangen, da es für bestimmte Eigenschaften unzählige Indikatoren gibt. Es sollte also gut begründet werden, warum für die o. g. Skala (Blog Reliabilität) genau diese Fragen bzw. Items formuliert wurden.

Ein konkretes Vorgehen, zur Bestimmung der Inhaltsvalidität, stammt von Murphy und Davidshofer (2001): 1. Zuerst sollte die inhaltliche Ebene des Konstrukts beschrieben werden. 2. Anschließend muss festgelegt werden, welche Items welchen Inhaltsbereich abbilden. 3. Zuletzt wird die Textstruktur mit der Struktur des Konstrukts verglichen.

FernUniCamp-Beispiel: Angewendet auf die Skala „Einheit und Vielfalt“ lassen sich folgende Schritte beschreiben: 1. Was ist mit „Einheit und Vielfalt“, als eine Dimension des Konnektivismus, gemeint? An dieser Stelle sind Arbeitsdefinitionen, d.h. ein theoretisches Verständnis eines Konstrukts, das der Forschungsarbeit zugrunde liegt, ratsam. Ebenso ist die Untersuchung bestimmter Teile eines umfangreichen Konstrukt sinnvoll, da es sonst denn Umfang einer Arbeit möglicherweise sprengen würde. 2. Welche Items bilden diese Skala am treffendsten ab? Hier spiele theoretische, empirische und logische Überlegungen eine wichtige Rolle. 3. Wenn auf theoretischer Ebene bestimmte Items „zusammengehören“, da sie eine Dimension abbilden, dann sollte eine Faktorenanalyse ein eindimensionales Resultat ergeben (demnächst gibt es dazu einen Blog zur Faktorenanalyse).

Kriteriumsvalidität

Bei der Kriteriumsvalidität werden die Resultate eines Tests in Verbindung mit anderen Kriterien gebracht. Kurze Anmerkung zum Begriff Test: Im Alltag wird der Begriff Test oft als Synonym für Leistungstests (z.B. einen Mathematik-, oder einen Sprachtest) gebraucht, im wissenschaftlichen Kontext wird aber auch jede Art von Fragebögen als Test verstanden, die ein theoretisches Konstrukt untersuchen. Je nach Zeitpunkt ergeben sich dabei unterschiedliche Arten der Kriteriumsvalidität (Bühner, 2011): – prognostische Validität: Testleistungen sollten mit Kriterien, die später erhoben werden, z.B. einen Mathematiktest vor dem Studium und als Kriterium die Abschlussnote des Mathematikstudiums, miteinander in Beziehung stehen. Dieses „miteinander in Beziehung stehen“ wird auch als Korrelation bezeichnet. Eine hohe Korrelation bedeutet, dass es eine enge Beziehung gibt. – konkurrente Validität: Hier wird der Test zeitgleich mit dem Kriterium erhoben. Bei einer Deutschklausur könnte beispielsweise kurz vorher ein Sprachtest durchgeführt werden, sodass anschließend die Korrelation zwischen der Deutschnote und der Testleistung ermittelt werden kann. –retrospektive Validität: Bei diesem Vorgehen werden Korrelationen mit zeitlich länger zurückliegenden Kriterien betrachtet.

Bei der inkrementellen Validität spielt der Zeitaspekt keine Rolle. Bei dieser Validitätsart interessiert, ob ein Test einen zusätzlichen Beitrag zur Verbesserung der Vorhersage eines Konstrukt leisten kann und das im Vergleich zu bestehenden Testverfahren. Zum Beispiel können Intelligenztests gut den Berufserfolg prognostizieren. Würde ein neues Testverfahren, das neben der Intelligenz auch das Sprachverständnis prüft, den Berufserfolg genauer vorhersagen, dann gäbe es einen zusätzlichen (Zuwachs = Inkrement) Beitrag zur Validität.

FernUniCamp-Beispiel: Wenn ein hoher Wert auf der Dimension „Einheit und Vielfalt“ dafür steht, dass im Rahmen des Konnektivismus vielfältige Gegebenheiten bevorzugt werden, dann sollten diese Personen z.B. auf zukünftigen FernUniCamps beobachtet werden können, wie sie sich mit Personen aus verschiedenen Bereichen unterhalten, zudem sollten diese Personen das vielfältige Angebot der Sessions nutzen. Allerdings handelt es sich um ein ideales Beispiel, da es u.a. aus Datenschutzgründen schwierig ist Daten von Personen bei einem FernUniCamp zu sammeln (die Person müsste z.B. damit einverstanden sein, dass sie beobachtet wird und das ihre Leistungen aus einem vorigen Test zu ihrer Person zugeordnet werden dürfte).

Konstruktvalidität

Einige Autoren subsumieren unter der Konstruktvalidität alle Arten der Validität zusammen. Nach diesem Verständnis ist ein Test konstruktvalide, wenn ein Test die Eigenschaft oder Fähigkeit misst, die er beansprucht zu messen (Moosbrugger & Kelava, 2012). Bei einem engen Begriffsverständnis der Konstruktvalidität fallen darunter nur die konvergente, diskriminante und faktorielle Validität. Bei der konvergenten Validität geht es darum, dass ein Test eine hohe Korrelation zu anderen Tests aufweisen sollte, die ein ähnliches theoretisches Konstrukt untersuchen. Dies steht im diametralen Verhältnis zur diskriminanten Validität. Hier geht es um den Vergleich von einem Test mit anderen Tests, die aber ein anderes theoretisches Konstrukt untersuchen. Test die verschiedene Konstrukte erfassen sollten nicht bzw. gering miteinander korrelieren. Wenn es um die konstruktnahe Zusammenfassung von Items geht und wenn es um die Trennung von kosntruktfremden Bereichen geht, dann spielt die faktorielle Validität eine wichtige Rolle (geplanter Blog zur Faktorenanalyse).

FernUniCamp-Beispiel: Würde die Skala „Einheit und Vielfalt“ niedrige Korrelationen zu Skalen aufweisen, die ebenfalls von sich beanspruchen dieses Dimension des Konnektivismus zu erfassen, dann müsste die bestehende Skala bearbeitet werden. Sofern es sich bei der Bezugsskala um eine reliable und valide Skala handelt. Im Idealfall sollte ein

Abbildung 2. Kriteriumskontamination und -defizienz.

Gründe für mangelnde Validität 

An dieser Stelle werden die Kriteriumskontamination und –defizienz (siehe Abbildung 2), als Gründe genannt, die die Validität negativ beeinflussen können (Bühner, 2011). Bei der Kriteriumskontamination misst das eingesetzt Messinstrument nicht das beabsichtige Konstrukt. Ein Test der Intelligenz erfassen soll, kann u.U. durch mangelnde Motivation, oder Unbehagen während der ungewohnt Testsituation, kontaminiert sein. Das Messinstrument erfasst diese Aspekte mit, obwohl sie nichts mit Intelligenz zu tun haben. Bei der Kriteriumsdefizienz fehlen wichtige Aspekte eines Konstrukts. Wenn der Umsatz eines Unternehmens ausschließlich durch die örtliche Lage erfasst werden würde, dann würden wichtige Faktoren nicht einbezogen werden bzw. die örtliche Lage als alleiniger Faktor für den Umsatz wäre defizient. Der Umsatz kann ebenfalls von dem Teamklima, der Arbeitszufriedenheit und auch der Führung der Vorgesetzten abhängen.

Reliabilität und Validität

Eine geringe Reliabilität (Blog Reliabilität) deutet auf eine geringe Messgenauigkeit hin. Ein Test mit einer einer geringen Messgenauigkeit kann auch nicht vollumfänglich das messen, was er zu messen beansprucht. Ein solcher Test hat deshalb eine geringere Validität. Ein Testverfahren kann also nicht den Anspruch erheben ein sehr valides Messinstrument zu sein, wenn die Reliabilität mangelhaft ist.

 

 

Literatur

Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3. aktual. Aufl.). München: Pearson Studium.

Moosbrugger, H., & Kelava A. (2012). Testtheorie und Fragebogenkonstruktion (2. aktuell. Aufl.). Berlin: Springer-Verlag. doi: 10.1007/978-3-642-20072-4

Murphy, K. R., & Davidshofer, C.O. (2001). Psychological testing principles and applications (5th edition). Upper Saddle River, NJ: Prentice Hall.

 

Artikelserie: Statistikblog Teil 2 – Reliabilität mit FernUniCamp Beispielen

Abbildung 1: Verschiedene Methoden zur Reliabilitätsschätzung,Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird.

Im zweiten Teil des Statistikblogs richtet sich der Fokus auf die Reliabilität bzw. auf die Methode der internen Konsistenz, da sie für die Bestimmung der Reliabilität häufig verwendet wird.

(Teil 1: zentrale statistische Kennwerte)

Jede empirische Messung kann mit zufälligen und systematischen Messfehlern verbunden sein. Systematisch verzerrte Messungen treten z.B. dann auf, wenn die Befragten nicht ihre tatsächliche Meinung, sondern eine „sozial erwünschte“ Antwort abgeben. Zufällige Messfehler haben dagegen zur Folge, dass dieselbe Messung bei der gleichen Untersuchungseinheit mal zu einem höheren und mal zu einem niedrigeren Wert führt, obwohl sich der tatsächliche Wert der gemessenen Eigenschaft nicht verändert hat.

So soll ein Intelligenztest möglichst fehlerfrei die Intelligenz messen und sonst nichts anderes. Dabei kann die Reliabilität, wie durch diesen Blog verdeutlicht, mit verschiedenen Methoden erfasst werden.

Die Reliabilität bezeichnet die Messgenauigkeit einer Erfassung, in unserem Fall der Umfrage zum FernUniCamp. Mit anderen Worten ermöglicht uns die Reliabiltät Einblicke in die Zuverlässigkeit unserer Messergebnisse, die wir mit bestimmten Methoden erhoben haben.

Nachfolgend werden mit der internen Konsistenz, der Retest– und der Paralleltestmethode drei Methoden vorgestellt, mit denen die Reliabilität geschätzt werden kann. Diese Methoden sind für die Schätzung der Reliabilität als gleichwertig anzusehen. Je nach Fragestellung ergeben sich für die jeweiligen Methoden verschiedene Vor- und Nachteile (siehe Abbildung 1, Hinweis: Die Abbildung wird vergrößert dargestellt, wenn sie angeklickt wird).

Continue reading

Gamification an der FernUni Hagen – Evaluation der Präsenzveranstaltung im Modul 3B

Vor einiger Zeit hatte ich berichtet, dass wir die Präsenzveranstaltung (PV) des Moduls 3B „Praxis der Mediendidaktik“ des BA-Studiengangs Bildungswissenschaften mit spielerischen Elementen versehen haben haben (siehe Artikel vom 28.04.2016). Nun liegen die Ergebnisse der Evaluation vor.

Ziel der Befragung war, herauszufinden welche Gamification-Elemente von den Studierenden als ansprechend und motivierend empfunden werden und wie das Gamification-Konzept für die PV im nächsten Semester (WS 16/17) verbessert werden kann.

Insgesamt nahmen 20 Studierenden an der PV teil, die auch alle den Fragebogen ausfüllten (Angaben zum Gender (Geschlecht) der Teilnehmenden: n = 17 weiblich; n = 2 männlichen; n = 1 keine Angabe). Die Studierenden waren im Durchschnitt 43 Jahre alt und besuchten das 9. Semester. Die Items wurden auf einer 5-stufige Likert-Skala von 1 = stimme gar nicht zu bis 5 = stimme voll zu abgefragt. Es sind jeweils die Ergebnisse zusammengefasst, denen die Studierenden eher und voll zustimmen.

Im nachfolgendem Text möchte ich die Bewertung der wichtigsten Gamification-Elemente in der PV vorstellen:

  1. Das Lösen von Quests (hier Gruppenaufgaben) und Quizzes
  2. Die Vergabe von Sternen im Peer-Review-Verfahren
  3. Die Auswahl einer Spielfigur (Avatar) und dessen visuelle Weiterentwicklung nach Lösen eines Quests
  4. Das Arbeiten in Gruppen

Im Modul 3B müssen die Studierende ein Praktikum absolvieren, welches verpflichtend ist. Studierende, dessen Praktikum in einem ähnlichen Bereich angesiedelt war, bildeten jeweils gemeinsam Gruppen während der PV. Die somit entstandenen Gruppen durften sich einen Avatar (Spielfigur in Gestalt einer Praktikantin/ eines Praktikanten) aussuchen, welcher die Gruppe während der Veranstaltung repräsentierte. Dieser musste einige Aufgaben (Quests und Quizze) lösen und konnten dadurch Sterne sammeln.

In den Quests haben die Studierenden ihr theoretischen Wissen in die Praxis eingebracht. Sie bekamen einen konkreten Arbeitsauftrag, den sie gemeinsam mit Hilfe des Online Tools Padlet erarbeiten sollten. Die meisten Studierenden konnten durch die Quests die Inhalte des Seminars besser verstehen (80%). Nach dem Lösen eines Quests, gaben sich die Spieleteams gegenseitig Feedback zu ihren Ausarbeitungen. Die Studierenden durften die Gruppenarbeit der anderen nach jeweiliger Begründung mit Sternen honorieren. Dies führte dazu, dass sie sich stärker mit den Seminarinhalten auseinandersetzten (95%). Einige Studierenden merkten an, dass das Feedback von Ihren KomolitonInnen „teilweise zu wohlwollend“ sei und dadurch den Lerneffekt geringer ausfalle. Zudem wiesen sie darauf hin, dass die Quests „relativ anspruchsvoll“ waren und Vorwissen benötigten.

Die Quizze gefielen den Studierenden sehr gut und wurden als unterhaltsam bewertet. Für zukünftige Veranstaltungen wünschten sich einige Studierenden, dass die Quiz-Fragen offener gestaltet und die Antworten mehr diskutiert werden.

Das Sammeln von Sternen (sowohl bei den Quests als auch Quizzen) hat den meisten Studierenden Spaß gemacht (70%) und einige zur aktiveren Mitarbeit motiviert (45%).

Als visuelles Feedback für den Spiel- und Erkenntnisfortschritt wurden zudem die Avatare eingesetzt. Nach der Bewältigung eines Quest veränderte sich die Spielfigur, indem sie optisch „kompetenter“ wurde (s. Abbildung 1).

Beispiel-Avatar (Praktikantin Veränderung)

Abbildung 1. Beispiel für die optische Veränderung des Avatars (Praktikantin)

Zwar gefiel einigen Studierenden (40%), dass sie einen Avatar auswählen konnten. Die visuelle Veränderung des Avatars motivierte die Studierenden jedoch nur im geringen Maße zur Mitarbeit (15%). Das lag vor allem an der visuellen Darstellung der Avatare. Die Studierenden wünschten sich eine freundlichere Gestaltung und mehr Individualität bei den einzelnen Figuren. Zudem merkten sie an, dass sich die Avatare je nach Punktestand weiterentwickeln sollten und nicht für alle Gruppen gleichermaßen nach dem Lösen eines Quests.

Die Evaluation ergab, dass Studierenden aus der PV (80%) gerne in Gruppen zusammenarbeiteten und diese der Einzelarbeit bevorzugten (95%). Sie empfanden das gemeinsame Lernen als effektiv (95%), konnten dadurch ihr Wissen mit anderen Gruppenmitgliedern austauschen sowie neue Fähigkeiten erwerben (90%; s. Abbildung 2).

Zustimmung zu Aussagen zum Kollaborativen Arbeiten

Abbildung 2. Zustimmung zu Aussagen zum Kollaborativen Arbeiten

Als Herausforderung bei der Gruppenarbeit sahen die Studierenden:

  • die unterschiedlichen Ansichten und Perspektiven der Gruppenmitglieder,
  • den unterschiedlicher Kenntnisstand des technischen Equipments zur Bearbeitung der Aufgabe,
  • den unterschiedlicher inhaltlicher Kenntnisstand und
  • die Dominanz einzelner Personen in der Gruppe.

Insgesamt ist das Gamification-Konzept der Veranstaltung sehr gut bei den Studierenden angekommen. Es hat dazu beigetragen die Veranstaltung aufzulockern und unterhaltsamer zu gestalten. Eine Studierende schrieb, sie sei „angenehm überrascht, dass überhaupt gespielt wurde“. Die Avatare wurden nicht von allen Studierenden als motivierend bewertet. Die Verbesserungsvorschläge der Studierenden wird das Lehrgebiet aufnehmen, um das Gamification-Konzept für das Wintersemester dementsprechend anzupassen. Uns hat es sehr gefreut, dass sich die Studierenden auf diese neue Form der Lehre eingelassen haben und wir sind gespannt wie das überarbeitete Konzept im kommenden Semester von den Studierenden angenommen wird!