3.9 Auswertung

Zunächst sollen allgemeine Fehlerquellen Betrachtung finden, bevor die statistischen Möglichkeiten der Auswertung erörtert werden.

3.9.1 Fehlerquellen bei der Auswertung

Bei Umfragen können sich Fehlerquellen (Antwortverzerrungen) durch Fehler im Instrument oder auch durch falsche Beantwortung durch den Teilnehmer ergeben. Fehler im Instrument lassen sich durch einen wissenschaftlich fundierten Aufbau minimieren. Zunächst sollen aber Effekte beschrieben werden, die in der Evaluation vorkommen können und nicht direkt am Instrument oder dem Befragten liegen, sondern in der ‚Natur der Sache‘ selbst.

Es ist eine Auswahl von Effekten, die es bei der Durchführung und vor allem bei der Auswertung zu berücksichtigen gilt.

Statistische Mortalität

Von statistischer Mortalität spricht man, wenn nicht mehr alle befragt werden können, die ursprünglich von der Maßnahme (z.B. Kurs, Seminar) betroffen waren. So wird im Studiengang Betriebswirtschaftslehre in Tübingen Evaluation betrieben, bei der dieser Effekt exemplarisch zu veranschaulichen ist. Verwunderlicherweise kommen bei den Bewertungen der Seminare als Ergebnis unerwartet häufig sehr gute bis gute Noten heraus.

Betrachtet man den Vorgang genauer, dann treten zwei Probleme zu Tage. Erstens findet die Befragung irgendwann am Semesterende während der Vorlesung statt. Die Studierenden, die das Seminar so schlecht fanden, daß sie nicht mehr kommen, werden auch zwangsläufig nicht mit ihrer Meinung in der Evaluation erfaßt. Sie fallen also aus der Untersuchung heraus.

Soziale Erwünschtheit

Das zweite Problem der oben beschriebenen Evaluation beruht auf sozialer Erwünschtheit, in diesem Fall in Kombination mit negativen Sanktionen. Die Befragung findet kurz vor den Klausuren statt. Fällt die Evaluation schlecht aus, so ist zu befürchten, daß die Noten der Klausuren ähnlich ausfallen.Unter sozialer Erwünschtheit versteht man also „ein an den Erwartungen des Untersuchenden orientiertes Antwortverhalten“ (Sassenberg/Kreutz 1999, S.61).

Reifung

Der Teilnehmer reift während der Maßnahme, aber nicht notwendigerweise durch die Maßnahme. Das bedeutet, daß bei einer Vorher-Nachher- Untersuchung eine Änderung feststellbar ist, aber ein Zurechnungsproblem entsteht: Hat der Teilnehmer den Zugewinn durch die Maßnahme erhalten oder durch andere Ereignisse, z.B. Gespräche außerhalb, Zeitungslektüre?

Zustimmungstendenz(Akquieszenz)

Darunter wird die Zustimmung zu Fragen ohne Bezug zum Inhalt verstanden. So zeigt sich dies bei Personen, die z.B. folgende Frage bejahen: ‚Der Besitz von Schußwaffen sollte in Deutschland im Grundgesetz verbürgt sein.‘ Sie stimmen jedoch ebenso dem Gegenteil zu: ‚Der Besitz von Schußwaffen sollte in Deutschland durch das Grundgesetz verboten sein.‘ Bei diesem Phänomen gibt es das Erklärungsmuster, daß besonders Menschen mit geringer Ich-Stärke zur Zustimmung neigen.

Primacy- und Recency-Effekte

Der Primacy-Effektähnelt der zuvor genannten Zustimmungstendenz, mit dem Unterschied, daß nicht prinzipiell zugestimmt wird, sondern die erste Antwortmöglichkeit gewählt wird, die einen Teilnehmer befriedigt.

Ein Primacy-Effekt ist anzunehmen, wenn eine Tendenz zu einer der ersten Antworten einer Liste vorherrscht. Bei visuell vorliegenden Antwortlisten tritt der Primacy-Effekt relativ häufig auf (vergl. McClendon in Vogt 1999, S.134). Dieses Phänomen läßt sich theoretisch mit einem angewandten Satisfying-Prinzip erklären, d.h. der Befragte wählt die erste Antwort aus, die ihn ‚befriedigt‘, wobei weitere Antwortalternativen unbeachtet bleiben. Dabei kann auch fehlendes Wissen über bzw. mangelndes Interesse am Fragegegenstand ausschlag- gebend sein (vgl. Vogt 1999, S.135).

Im Gegensatz dazu steht der Recency-Effekt, bei dem die Antworttendenzen zu einer der letzten Positionen einer Liste neigen. Dies tritt v. a. bei mündlichen Interviews auf, wenn der Antwortende etwa die ersten Möglichkeiten bereits wieder vergessen hat und so eine Auswahl aus den zuletzt gehörten Punkten trifft.

Halo-Effekt

Wenn eine Frage im Kontext zu vorhergehenden Fragen steht, kann diese von den vorigen Fragen bzw. Antworten beeinflußt werden. Der Befragte orientiert sich dann also an den vorangegangenen Fragen und Antworten. Diese Problematik wird als Halo- bzw. Ausstrahlungseffekt bezeichnet. Solche Effekte treten vorwiegend dann auf, wenn Fragen den gleichen bzw. einen in irgendeinem Zusammenhang stehenden Gegenstand behandeln. Sie „sind aber insgesamt auch nur vereinzelt nachweisbar. Konsistente Ergebnisse zu bestimmten Reihenfolgeneffekten liegen offenbar nicht vor“ (Vogt 1999, S.131; vgl. Schnell et al. 1999, S.320). Es sollte dennoch auf mögliche inhaltliche Ausstrahlungseffekte geachtet werden.

Zentrale Tendenz bzw. Mild-Härte-Fehler

Bei der zentralen Tendenz werden vom Antwortenden extreme Ausprägungen vermieden. Die Befragten tendieren zur Mitte. Ein ähnliches Phänomen, das allerdings zur extrem positiven Ausprägung tendiert, wird von Gerl beschrieben: „Als ein Problem (...) ergibt sich häufig, daß Teilnehmer dazu neigen, generell sehr günstige Einschätzungen und Wertungen ihres Kurses und/oder ihres Kursleiters vorzunehmen. Die einzelnen Items weisen dann zum Teil extrem schiefe Verteilungen auf.“ (Gerl 1983, S.46)

Diese Problematik deckt sich mit den Erfahrungen meiner Kurstätigkeit. Bei der Evaluation votieren 85bis 100 % der Teilnehmer für ‚sehr gut‘. Gerl nennt zwei mögliche Gründe für dieses Verhalten: Einerseits führt schon die Kursteilnahme im Gegensatz zu den normalen Lebensumständen tatsächlich zu einer großen Zufriedenheit, relativ unabhängig von der didaktischen Qualität. Der Kurs wird u.U. als Urlaub vom Alltag empfunden.

Andererseits die sehr stichhaltige zweite Erklärung: Teilnehmer sind es unter Umständen nicht gewohnt, über einen Kursleiter, der zu diesem Zeitpunkt Leitungspersonal darstellt, eine differenzierte Kritik abzugeben. Erschwerend für eine schlechte Bewertung kommt noch hinzu, daß der Kursleiter in der Regel freundlich ist und man ihm aus ‚Sympathie‘ (oder aus Mitleid) eine gute Bewertung gibt. So können unabhängig von der Fragestellung bei allen Antworten sehr gute Bewertungen vorgenommen werden.

Gerl schlägt vor, bei der Auswertung die restlichen, schlechteren Kategorien rechnerisch zusammenzufassen und dem Ergebnis der sehr guten Bewertungen gegenüberzustellen (Gerl 1983, S.46).

Beispielsweise bei der Bewertung
   12 x sehr gut    4 x gut    2 x naja   1 x schlecht   0 x mangelhaft

Zusammengefaßt:
   12 x gut 7 x schlecht

Das Zusammenfassen dient einer Übersicht und kann unter Umständen die zu positive Bewertungen relativieren.

3.9.2 Statistische Verfahren

Im Gegensatz zur menschlichen Intelligenz kann sich die Computerintelligenz mit einer weitaus höheren Genauigkeit irren. (Autor unbekannt)

Als Statistik werden numerische Kennwerte, Auswertungstechniken und die verschiedenartigsten grafischen Darstellungen bezeichnet, die eine sinnvolle Erfassung und Analyse der Beobachtungsdaten ermöglichen.

Mathematische Bewertung nach deskriptiven Verfahren

Die Größen und Merkmale der Lage- und Streuungsmaße vermitteln erstmals einen Eindruck der zu erwartenden Ergebnisse. Ein weiterer sehr wichtigen Sinn besteht darin, „eine gewisse Sensibilität des Forschers für das vorliegende Datenmaterial herzustellen“ (Maier et al. 2000, S.35). Dies beugt Fehlern vor, die sich bei der Variablentransformation relativ schnell einschleichen können. Im Alltagsleben findet dieser Vorgang intuitiv statt, wie beim Überschlagen der Restaurantrechnung. So hilft es „z.B. beim Erkennen unplausibler Verteilungen, abenteuerlicher Mittelwerte oder ungewöhnlich vieler bzw. wenig gültiger Werte“ (Maier ebd.).

Deskriptive Verfahren

Die Kenntnisse der deskriptiven Verfahren sind wichtig, da später beim Einsatz von Software diese Werte automatisch berechnet werden können, egal wie unsinnig die Ursprungswerte bzw. Fragestellungen sind. So würde auch die Fragestellung ‚Wie hoch ist der Ausländeranteil in der Schweizer Garde im Vatikanstaat‘ berechnet.

Für das Grundverständnis wird als erstes ein Verständnis der Skalenniveaus benötigt.

Zunächst wird die Nominalskala benötigt. Bei dieser Skalierung gibt es nur ein ‚entweder-oder‘. Fragestellungen sind z.B. nach dem Geschlecht und Wahlabsichten unterteilt. Die Antworten können nicht geordnet werden, haben also keinen Rang. Zwischenstufen gibt es normalerweise nicht.

Bei der Ordinalskala können Daten im Gegensatz zu der Nominalskala etwas in eine Reihenfolge gebracht werden, wenn bestimmte Ausprägungen formal ‚mehr Wert‘ sind als andere. Bei Schulabschluß z.B. zählt das Abitur mehr als die Realschule, die wiederum besser dasteht als die Hauptschule. Dabei kann nur gesagt werden, daß etwas besser ist, nicht jedoch wieviel es besser ist.

Bei Intervallskalen kommt zusätzlich zu den Eigenschaften der Nominal- und Ordinalskalen noch die Möglichkeit der Bestimmung der Differenz hinzu. Das klassische Beispiel jeder Statistikvorlesung ist der Temperaturunterschied – der Unterschied zwischen 10 und 20 Grad ist genauso groß wie zwischen 60 und 70 Grad.

In der Ratioskala kommt zusätzlich zu den Eigenschaften der anderen Skalierungen der fest definierte Nullpunkt hinzu. Dadurch wird es möglich, Verhältnisse zu berechnen. So kann gesagt werden, daß Mensch A dreimal so alt ist wie B, der doppelt soviel verdient.

[Tabelle 16: Vergleich Nominal-, Ordinal-, Intervall- und Ratioskalen nach Maier et al. (2000, S. 36)

Das Verständnis der Skalen ist der erste grundlegende Schritt zur erfolgreichen Anwendung von statistischen Verfahren. Über die Integration in Software könnte eine automatische Erstellung von Fragekategorien erzeugt werden. In sozialwissenschaftlichen Untersuchungen finden sich vor allem Merkmale, die der Nominalskala und Ordinalskala entsprechen.

Weiterhin sind die zentralen Tendenzen wichtig. Hier sei nur an Arithmetisches Mittel (Mittelwert, Durchschnitt), Modus (Modalwert), Median (Zentralwert) und Quantile erinnert.

Die Streuungsmaße geben eine Einsicht über die Variabilität einer Merkmalsverteilung. Zu den Streuungsmaßen gehören Minimum und Maximum, Spannweite, Quartilsabstand, Standardabweichung, Varianz und der Varianzkoeffizient (relative Streuung).

Um den Umfang der Arbeit nicht zu sprengen, sei für die Erklärungen der Tendenzen und Streuungsmaße auf Statistikbücher verweisen, die diese Begriffe üblicherweise in den ersten Kapiteln erklären (siehe Maier et al. 2000).

Analytische Verfahren

Ziel der analytischen Verfahren ist es, zu prüfen, ob aus dem gewonnenen Datenmaterial verallgemeinerungsfähige Schlußfolgerungen gezogen werden können oder ob es Beziehungen zwischen einzelnen Variablen gibt. Im folgenden werden drei wichtige Verfahren der Datenanalyse kurz skizziert, die für Evaluation u.U. von Interesse sein können und von einigen beschriebenen Softwarepaketen automatisch berechnet werden.

Kreuztabelle (Synonyme: zweidimensionale Häufigkeitsverteilung, Kontingenztabelle)

In einer Kreuztabelle wird die Beziehung zwischen zwei Variablen aufgezeigt. Diese werden gekreuzt, und daraus ist die Häufigkeitsverteilung einer Variable ersichtlich, die durch die Ausprägungen der zweiten Variable definiert ist. Dazu ein einfaches Beispiel: In einer Evaluation könnte nach der Teilnehmerzufrieden- heit gefragt werden. Zusätzlich wird in der Evaluation noch das Geschlecht ermittelt. Diese zwei Variablen werden gekreuzt und so kann eine Aussage über die Teilnehmerzufriedenheit in Abhängigkeit des Geschlechtes gemacht werden.

Die Aussagen können über den chi²-Test, der üblicherweise bei Kreuztabellen verwendet wird, auf Signifikanz überprüft werden. Liegt eine statistische Signifikanz vor, ist das Assoziationsmaß interessant. Mit dem Assoziationsmaß wird das Ausmaß der hergestellten Beziehung ausgedrückt. Das soll an dieser Stelle ausreichen, um die Software beurteilen zu können. Weitere und vor allem genaue Verfahrensvorgänge sind in Maier et al. (2000, S.46 ff.) zu finden.

Korrelationsanalyse

In der Korrelationsanalyse soll der statistische Zusammenhang zwischen zwei metrisch skalierten Variablen quantifiziert werden, sofern ein Zusammenhang besteht. Die Darstellung in Diagrammen erfolgt über eine Punktwolke. Sind die Punkte diffus verstreut, liegt keine Korrelation vor (Pearsonscher Korrelations- koeffizient r=0). Liegen die Punkte eng und nahezu auf einer gedachten Linie, dann strebt der Korrelationskoeffizient gegen r= 1 (vgl. Maier et al. 2000, S.62 ff.).

Faktoranalyse

Die Faktoranalyse wird gerne eingesetzt, wenn Daten mit einer unbekannten Struktur vorliegen, also wenn nicht bekannt ist, wie die einzelnen Variablen theoretisch miteinander in Verbindung stehen könnten. Dazu ein anschauliches Beispiel: In einem Fragebogen über Autokauf wird nach dem Berufsstand und der Wichtigkeit des Besitzes eines Autos gefragt. Diese Daten werden mit einer Faktoranalyse ausgewertet. Das folgende Schaubild zeigt die Stärken der Faktoranalyse und die Darstellung in Form einer faktoriellen Karte.

[Abbildung 15: Beispiel der Einschätzung der Wichtigkeit eines Autobesitzes, abgebildet auf einer faktoriellen Karte

Die Faktorenanalyse geht noch weiter als im Beispiel und bietet erstaunliche Erkenntnismöglichkeiten.

Wiederum sei auf Maier et al. (2000, S.116 ff.) für weitergehende Informationen verwiesen.

Schlußüberlegung zur Statistik

Durch statistische Verfahren können erkenntnisbringende Ergebnisse gewonnen werden. Grundvoraussetzung ist und bleibt auch beim Einsatz von computer- basierter Befragung ein Grundverständnis statistischer Vorgänge. Wie weit der Einsatz der deskriptiven und analytischen Verfahren von Softwarelösungen unterstützt wird, zeigt das folgende vierte Kapitel.

Pretest Vor- und Nachteile