Gütekriterien

Aus Psycho
Wechseln zu: Navigation, Suche

Nebengütekreiterien

TP141024.1.png

Folie19 Ein Test der eines der Hauptkritereinnciht erfüllt ist im wesentlichen unbrauchbar. Bei den Nebengütekrieterien ist es wesentlich weniger streng.

Testkonstruktion

  • Wie möchte is das Merkmal überhaupt erfassen?
  • Welche Indikatoren möchte ich einsetzen?
  • Wer ist denn die Zielgruppe?
  • Eingrenzen des Konstruts (Merkmale sind oft sehr breit)
  • Zu beginn wiessen welches Merkmal nimmt, am Ende ncochmals überprüfen ob es tatsächlich dem entspricht

Verneinungen reinmachen (auch Doppelverneinungen, um es noch schwerer zu machen) Je nach Zielgruppe wird hier unerschiedlich entschieden.

TP141024.2.png

Indikatoren

Folie22

Datenarten nach Cattell

  • Q-Daten: Klassische Selbstratings, Fragebogenantworten, klassisch subjektiv (Questionnaire)
  • L-Daten: Beobachten von Verhaltensweisen (Life Data), Welche Bücher kauft Person, in welchen Verinen ist sie tätig (Ausdruck der Interessen)
  • T-Daten: Kleines Experiment aufbauen und datdurch interessen auf Leistungstestebene erfassen

Slebst wenn man eine Persönlichkeitseigescnhaft weerfassen will ist man nciht auf klassische Fragebogen beschräntk man kann auch objektive Methoden zu hilfe nehmen. Oder umgekeht obbjektive sachen subjektiv fragen um zu sehen ob sich Person unterschätzt oder überschätzt.

Muss zu beginn entshcieden weren

Subjektive Indikatoren

Durch Person slebst bestimmt. Subjektive Indikatoren sind subjektiv getönt und daher sehr vielen Verfälschungstendenzen ausgesetzt. Man kann sich anders darstellen als man ist. Subjektive indikatoren können einfach verfälscht werden

Objektive Indikatoren

Es wird aus der Beobachtung gemessen. Objektive Indikatoren haben keine Subjektive Komponente, subjektive Komponente spielt keine Rolle. z.B Beobachten wie sich eine Person in einer Diskussion verhält.

Zielgruppe

Folie23 Man braucht je nach Zielgruppe unterschiedliches Testmateril (z.B auch Tests für Kleinkinder die nicht lesen können etc) Wann mmer man Items konstruiert sind die nur dann geeingnet wenn sie auch tatsächlich dem Leben/ der Lebensrealität der Person entsprechen. Man muss aus den Items tatsächlich informationen ableiten können. z.B auch keine Fantasiesachen, ausser natürlich man versucht kreativität zu erfassen. Wichtig ist auch das Sprchaliche Niveau der Person (bewusstes verwenden von Fremdworten oder komplizierten Fragen)

Zu hohe oder zu niedrige Itemschwierigkeit ist hinweis darauf das Item für Zielgruppe ungeeignet

Testfairness

Das Verfahren muss so gestaltet sein das keine Personengruppe systematisch benachteiligt oder bevorzugt wird.

Grundsätzliche Überlegungen

Man richtet sich nahc den Zielen die man verfolgt. Folie24

Strategien der Testkonstruktion

Rationale Testkonstruktion (Deduktive Methode)

Man hat eine Theorie und versucht anhand der Theorie gute Items zu finden Beispiel auf Folie26 Theoriebasiert Man brauct inhaltsvalide items

Externale (Kriterienorientierte) Testkonstruktion

Für die Gruppenteilung, Items finden die Gruppentrennung ermöglcihen Manchmal denke ich an schlechte Dinge, Ich lese gerne technische Zeitschriften

z.B MMPI in der klinischen
Keine Gednaken machen warum trennung funktioniert, man braucht keine inhaltsvaliden items man hat einfach gefunden das es zwischen Gruppen trennt.

Induktive Testkonstrukztion

Bildet grossen Pool an items die eigenschaften erfassen nun erschafft man daraus ein Modell das etwas wiederspiegelt, Hier bildet man die Theorie auf Basis der Ergebinisse z.B mittels Faktorenanalye

Prototypenansatz

Man versucht prototypische Einstellung gegenüber bestimmten eigenschaften herauszufinden ("Denken sie an die extrovertierteste Person die sie kennen und schreiben sie Eigenschaften davon auf) Diese werden gesammelt (Act-Frequency Approach) Werden dann zusammengenommen , man konstruiert Items aus dem Prototypischen verhalten (welches man über Act-Frequecy erfasst)

Wie Kommt man konkret zu den Inhalten

Für die Erstellung von items wird häufig auch Inspiration bei anderen Tests gesucht Folie30

Top-Down Technik

Von Literwatur und existeirenden Definitionen, Expertenmeinungen intuitiv zu den Items kommen

Bottom-Up Technik

Man versucht verhalten direkt zu beobachten Critical Incidence Technique, Situationen beobachten wie sich jeweilige Personen in Situationen beobachten

Wahl des Itemformats

Gebunden vs. Offen

TP141024.3.png

Ratingskala

Folie33 Will man eine Dichtotome Abstufung oder will man es mehrstuffig abgestuft haben?

  • Differenzierungsgrad des Items
  • Polarität des Items
    • Fehler beim Erstellen des Vorschaubildes: Datei fehlt
  • Benennung der Antwortalternativen
    • eher nicht - eher schon vs. niemals - immer
    • Man kann nciht davon ausgehen das alle Leute unter eher nicht das geliche verstehen
  • Adjustierung der Itemschwierigkeit

Probleme

Zu hohem Grade verfälschbar, kann zu Antwortstendenzen kommen etc.

TP141024.5.png

Richtig Falsch Aufgabe

Folie38

Einfach-Mehrfachwahlaufgabe

Folie39 MC Aufgaben sind sehr ökonimsich in der Anwendung, Problem ist das Distraktoren in der Konstrutktion möglicst plausibel erscheinen. (Ausschlusskriterium)

Zuordnungsuafgaben

Folie40&41

Umordungsaufgaben

Folie42&43 Häufig bei Intelligenztests für Kinder Problematisch wenn auch alternative Verläufe möglich sind.

Probleme gebundener Antwortformate

Folie44&45

Freie Aufgabenbeantwotung

Sätze aufschreiben/ergänzenetc. kann z.B auch noch qualitativ ausgewertet werden. Man kann wesentlcih komplexere Aufgaben gestalten, auswertungsobejektivität kann problematisch sein, höherer Aufwand in Auswertung und durchführung Bei Kurzaufsatz kann viel mehr produziert werden

aussergewöhnliche Antwortsarten

Ab 47

Richtlinien zur Irtemformulierung

  • Präzise, eindeutigm klare Formulierung
  • Zielgruppe beachten
  • Itempolung, Verneinungen, doppelte Verneinungen
  • Wie möchte man die Antworten erfassen (Häufigkeiten?, Referenzräume müssen mit angegeben sein (als kind, gestern, allgemein)

Fragen können Hürden darstellen

TP141024.6.png

Item kann auf viele Unterschieldiche Arten verstanden werden!

Reihenfolgeeffekte bedenken

Reihenfolge in denen man Items vorgibt kann einen Einfluss darauf haben wie die Person die Items beantwortet. Items beeinflussen folgende Fragen. Erste Frage kann zum beispiel ein Anker sein. Oder Leute versuchen immer ähnlich zu antworten, wenn man das erste abgelehnt hat versucht man das zweite auch abzuleghen Konsitenz oder umgekehrt Kontrast Salienzeffekte bringen einem erst auf ideen Primingeffekte lässt einem erinnern an Items Subtraktionseffekte, man denkt item ist schon behandelt, man antwortet beim zweiten mal ander

TP141024.7.png TP141024.8.png

Itemkennwerte

Schwierigkeit

Man hat ein bestimmtes Item und will damit weiterrechnen. Mittelwert hängt davon ab wie man Item konstruiert hat.

Teilweise gibt es bei Richtig und Falsch Aufgaben noch zusatzpunkte wenn man möglichst schnell ist. Zeitgutpunkte

TP141024.9.png

In der Praxis werden sehr selten einzelne Items ausgewertet sondern immer skalengesamtwerte (Ausser in bedrohlichen Sitationen, atente Suizidialität etc)

Items Steigern sich in ihrer Schwierigkeit. Schwierigkeitsindex ist kein Einfachkeitsindex. Wenn zahl hoch ist ist es ein sehr einfaches Item, wenn Zahl tief ist. Hoher schwierigkeitsindex, leichtes Item Folie6

Schweirigkeitsindex hilft bei testkonstruktion um Quaitäten der Items einschätzen zu können supereinfache Items können sowieso alle beantworten, zu schwierige schafft sowieso niemand Ist es sinnvol viele schweirige Itmes zu haben. Zuviele schweirige ist frustrierend für Personen (Beim Hawik 5 mal hintereinander falsche Antwort wird abgebrichen.

Wäre es nicht sinnvoll man würde sich aus wirtschafltichkeit nur die mittleren Items nehmen? GBestes Argument einfache drin zu lassen z.B als einstiegitems drin zu lassen , die ganz schweirigen kann man brauchen um in einem hohen Leistungsbereich zu differenzieren.

Itemmittelwert ist indikator darüber wie schweirig ein item ist (in der interallskalierten Skala) Man soll auch Varianz haben, wenn man keine Varianz hat ist das Item ohne Information

TP141024.10.png

Bei Dichotomen items ist die SChweirigkeit einfach die Zahl von Personen die das Item gelöst haben.

SI mit Zufallskorrektur

Nur bei Leistungstests

TP141024.11.png

Inangriffnahmekorrektur

Es kann aber vorkommen das (besonders bei Zeitlimits) nicht alle TN die Aufgabe beantworten können Folie12

Beide zusammen

Folie13

TP141024.12.png

SI ist nicht unabhängig von anzahlt antwortalternativen Folie 14 und 15 Bei schnelligkeitstest will man möglcihst einfache Aufgaben, bei Powertests will man typischerweise starke spannbreite. Bei Kombotests am besten mittlere Itemschweirigeiten.

Welche Items bringen uns besonders viel Iformattion?

Sind jene die Lösungswahrscheinlichkeit von 50% haben, man hat am anfang ekine Idee ob Perosn item löst oder ncith, maximaler Informationsgehalt. In der Praxis unmöglich solche Tests zu konstruieren. Daher end zwischen 20 und 80 oder 30 und 70 liegen.