-
Desktiptive Statistik
Beschreibung einzelner/mehrerer Variablen durch Tabellen, Grafiken und Koeffizienten.
-
Convenience Sampling
Es werden die Mitglieder einer Population in die Stichprobe einbezogen, die einfach zu erreichen sind.
-
Einfache Zufallsstichprobe
Wenn alle statistischen Einheiten einer Population dieselbe Wahrscheinlichkeit besitzen, in die Stichprobe aufgenommen zu werden.
-
Geschichtete Zufallsstichprobe
Gesamte Population wird in einzelne Schichten (Teilpopulation) unterteilt und aus diesen Teilpopulationen werden einfache Zufallsstichproben gezogen.
-
Quotenstichprobe
Die für die Fragestellung wichtigen Merkmale werden so zusammengestellt, dass sie ein repräsentatives Abbild der Population darstellt. Die Prozentualen Anteile der Kombinationen dieser Merkmale in der Population ermittelt und als Quoten bei der Stichprobenbildung vorgegeben.
-
Stichprobe
Ein Teil der zu untersuchenden Population. Sie soll repräsentativ sein betreffend die Merkmale, die die Angemessenheit der zu erzielenden Erkenntnisse über die Population wesentlich beeinflussen.
-
Population
Gesamtheit aller statistischen Einheiten, auf die sich die Untersuchung richtet.
-
Variablen
- Merkmale, die an statistischen Einheiten untersucht werden. Sie besitzen Ausprägungen (Werte).
- Variablen werden auch Beobachtungen genannt. Eine Variable ist z.B. das Geschlecht und die Ausprägung ist männlich.
-
Statistische Einheit
Untersuchungseinheit, auf die sich die statistische Auswertung bezieht. Sind oft Personen, können aber auch Organisationen oder Messzeitpunkte sein.
-
Ordinalskala
Hat den dritthöchsten Informationsgehalt. Für die Variablenwerte lassen sich Rangordnungen bilden und sinnvoll repräsentieren.
-
Nominalskala
Hat den geringsten Informationsgehalt. Werte der nominalskalierten Variablen können nicht wirklich in eine sinnvolle Reihenfolge gebracht werden.
-
Ratioskala / Verhältnisskala
- Besitzt höchstes Skalenniveau und hat einen natürlichen Nullpunkt.
- Für die Variablenwerte können Verhältnisse, Abstände & Rangordnungen gebildet werden.
-
Stetige Variablen
Menge der Ausprägungen. Sie sind nicht abzählbar. Zwischen zwei Werten können unendlich viele andere Werte auftreten.
-
Diskrete Variablen
Hier kann die Menge der Ausprägungen durch die endliche Menge der ersten n natürliche Zahlen oder durch die abzählbar unendliche Menge aller natürlichen Zahlen repräsentiert werden.
-
Quantitative Variablen
- Ihre Ausprägungen reflektieren eine unterschiedliche Intensität eines Merkmals.
- Diese Variablen sind mindestens ordinalskaliert.
-
Qualitative Variablen
Die unterschiedlichen Ausprägungen charakterisieren verschiedene Eigenschaften der Variablen. Sie lassen sich nicht nach quantitativen Aspekten (z.B. Intensität) unterscheiden. Nominalskalierte Variablen sind immer qualitativ.
-
Metrische Variablen
Sind entweder Ratio- oder Intervallskaliert.
-
Intervallskala
Hat den zweithöchsten Informationsgehalt. Für die Variablenwerte können Abstände und Rangordnungen gebildet werden.
-
Absolute Häufigkeit
Bezeichnet die Anzahl der statistischen Einheiten einer Stichprobe mit einer bestehenden Ausprägung eines Merkmals.
-
Relative Häufigkeit
Bezeichnet den Anteil der beobachteten Ausprägungen (absolute Häufigkeit) am Gesamtstichprobenumfang.
-
Empirische Verteilungsfunktion
Enthält die kumulierten relativen Häufigkeiten für die Ausprägung eines bestehenden Merkmals.
-
Kreisdiagramm
- Darstellungsform für relative / absolute Häufigkeiten.
- Unterschiedliche Ausprägungen eines Merkmals werden als Sektoren eines Kreises dargestellt.
-
Balkendiagramm
Die Häufigkeiten werden anhand unterschiedlicher Höhen von Balken dargestellt. Die Balken berühren sich nicht.
-
Stamm-Blatt-Diagramm
Ausprägungen eines Merkmals werden in Stämme und Blätter aufgeteilt. Einzelne Variablenwerte können so als Blätter hinter dem passenden Stamm abgetragen werden. Man erhält so einen Überblick über die Form einer Verteilung eines Merkmals.
-
Histogramm
- Zur Erstellung wird dei metrische Variable zuerst in k Klassen eingeteilt.
- Für jede Klasse wird ein Rechteck errichtet (meist mit gleicher Breite) dessen Fläche proportional zur klassenspezifischen Häufigkeit ist.
-
Schiefe Verteilungen
- Der grössere Teil der Daten ist auf der linken / rechten Seite konzentriert.
- Daher:
- linksschief / rechtssteil
- rechtsschief / linkssteil
-
Normalverteilung
Hat Form einer (Gauss'schen) Glockenkurve und ist für die Beschreibung der Verteilung vieler Variablen geeignet.
-
Arithmetisches Mittel (Mittelwert)
Summe der Beobachtungen einer Variablen, geteilt durch die Anzahl Beobachtungen.
-
Median
- Mass zentraler Tendenz für mindestens ordinalskalierte Variablen. Es gilt:
- Mindesten 50 % der geordneten Werte liegen oberhalb und mindestens 50 % der geordneten Werte liegen unterhalb dieses Wertes.
-
Modus / Modalwert
- Mass der zentralen Tendenz, das bereits für nominalskalierte Variablen berechnet werden kann. ist nicht immer eindeutig.
- Ein Modus repräsentiert den Wert einer Variablen mit der grössten Häufigkeit.
-
Quantile
- Teilen einen Datensatz in einem bestehenden Grössenverhältnis auf. Das p-Quantil (0<p<1) teilt die geordneten Beobachtungen so in zwei Teile, dass mindestens p * 100 % grösser/gleich dem p-Quantil sind.
- Das p. 50-Quantil entspricht dem Median.
-
Quartile
Sind die Quantile p. 25, p. 50 und p. 75. Sie vierteln den Datensatz.
-
Interquartilabstand
Streuungsprozess für mindestens ordinalskalierte Variablen und wird als Differenz zwischen dem oberen und unteren Quartil berechnet.
-
Varianz
Streuung der Messwerte einer metrischen Variablen. Wird berechnet als die Summe der quadrierten Abweichungen der Werte vom Mittelwert geteilt durch die Anzahl der Werte -1.
-
Standardabweichung
Positive Wurzel aus der Varianz. Ihre Einheit entspricht im Gegensatz zur Varianz der Einheit, anhand derer die Variable gemessen wurde.
-
Schiefe Verteilungen
Weichen von symmetrischen Verteilungen ab und können entweder rechtsschief / linkssteil (positive Schiefe) oder linksschief / rechtssteil (negative Schiefe) sein.
-
Kurtosis
- Wölbung einer statistischen Verteilung. Weisen die Variablen eine von dern Normalverteilung mit identischer Varianz abweichende Kurtosis auf, so liegen relativ mehr Beobachtungen gleichzeitig im Zentrum und an den Rändern (leptokurtisch, pos. Kurtosis) oder im Bereich der Schultern einer Verteilung (platykurtisch, neg. Kurtosis).
- Normalverteilte Variable = mesokurtisch
-
Z - Werte
Standardisierte Werte einer Variablen, die aus der Z-Transformation resultieren. Zuerst zieht man von allen Werten das arithmetische Mittel ab. Die so gebildeten Differenzen (zentrierte Werte) teilt man durch die Standardabweichung. Z-transformierte haben Mittelwert 0 und Standardabweichung 1.
-
IQ-Skala, Z-, T-, Stanine-, Pisa-, Notenskala
Sind alle äquivalent zur Z-Skala. Sie unterscheiden sich jeweils durch den Mittelwert und die Standardabweichung.
-
Prozentränge
Entsprechen den Perzentilen einer Verteilung.
-
Tschebycheff-Ungleichung
Sagt aus, dass für beliebige Veteilungen immer 100 * (1-1k2) % aller Beobachtungen im Intervall [y ± k * s] liegen, wobei k >1 gelten muss.
-
Boxplot
Diagramm zur Verteilungsdarstellung. Es werden die zentrale Tendenz, Streuung und Schiefe einer Variablen, sowie Ausreisser und Extremwerte abgebildet. Als numerische Basis für den Boxplot dienen die Werte der 5-Punkte-Zusammenfassung.
-
Whiskers
Horizontale / vertikale Linien ausserhalb der Box eines Boxplots. Die Länge der Whiskers beträgt max. das 1.5-fache des Interquartilabstandes (1.5 dq). Werte, die ausserhalb liegen, werden separat ins Diagramm eingetragen. Sind keine Werte ausserhalb, so reichen die Whiskers bis zum max./min. Wert.
-
Ausreisser
Werte im Boxplot, die zwischen dem 1.5-fachen und dem 3-fachen Interquartilabstand liegen. Sie werden durch spezielle Symbole dargestellt.
-
Extremwerte
Werte, die mehr als drei Interquartilsabstände von der Box entfernt liegen. Werden auch durch spezielle Symbole dargestellt.
-
Bivariate Häufigkeitstabelle / Kontingenztabelle
Enthält die absoluten / relativen Häufigkeiten der Wertepaare zweier Variablen. In der Tabelle der Zelle steht die jeweilige Häufigkeit für die Kombination der Ausprägungen zweier Variablen X und Y.
-
Randverteilungen
Verteilungen, die sich am Rand der bivariaten Häufigkeitstabelle ergeben. Sie entsprechen jeweils den Häufigkeitsverteilungen eines Merkmals.
-
Bedingte Häufigkeitsverteilung
Enthält die bedingten Häufigkeiten einer Variablen. Das sind die relativen Häufigkeiten einer Variablen unter der Bedingung, dass die andere Variable eine bestimmte Ausprägung hat.
-
Unabhängigkeit (zwischen zwei Variablen)
Liegt vor, wenn die bedingten Häufigkeitsverteilungen einer Variablen für alle Ausprägungen der jeweils anderen Variablen identisch sind.
-
Streudiagramm
Die beobachteten Wertepaare werden von metrischen Variablen grafisch dargestellt. Sie stellen eine sog. Punktewolke in einem Koordinationssystem dar.
-
Kovarianz
- Nicht normiertes Mass für Richtung und Stärke des linearen Zusammenhangs zweier Variablen X & Y.
- Bei Kovarianz = 0, besteht kein Zusammenhang zwischen zwei Variablen.
-
Korrelation
Normiertes Mass für Richtung und Stärke des linearen Zusammenhangs zweier Variablen.
-
Rangtransformation
Dabei erhält der grösste Wert den Wert 1, der zweitgrösste den Wert 2, etc.
-
Rangbindung
Mehrere Beobachtungen teilen sich einen Rangplatz. Dieser repräsentiert in der Regel den mittleren Wert der Ränge, die sich bei einer Zuteilung ohne Bindungen ergeben hätten.
-
Spearmans Rangkorrelation
Anwendung der Produkt-Moment Korrelation auf rangtransformierte Daten. Diese Korrelation ist für mindestens ordinalskalierte Variablen geeignet.
-
Konkordanz
Von zwei Wertepaaren zweier Variablen X & Y liegt vor, wenn die Grösser-Relation zwischen den Werten des Wertepaares (xi, xj) der Variablen X gleichermassen für die Werte des Wertepaares (yi, yj) der anderen Variablen Y zutrifft. Damit gilt: xi > xj oder xi < xj und yi < xj.
-
Diskordanz
- Von zwei Wertepaaren liegt vor, wenn die Grösser-Relation zwischen den Werten des Wertepaares einer Variablen X in umgekehrter Richtung für die Werte des Wertepaares der Variablen Y ausfällt.
- Es gilt:
- xi > xj und yi < xj oder
- xi < xj und yi > xj
-
Koeffizient ϒ
Zusammenhangmass für ordinalskalierte Variablen. Bei ϒ wird die Differenz der Konkordanten und Diskonkordanten Paare C-D durch die Summe der Paare C+D geteilt. Das Mass berücksichtigt keine Rangbindungen und kann im Falle von Rangbindungen sehr hoch ausfallen.
-
Koeffizient Ʈb
Zusammenhangmass für ordinalskalierte Variablen. Bei diesem Mass werden Rangbindungen in beiden einzelnen Variablen berücksichtigt. Bei ungleicher Anzahl Ausprägungen der beiden Variablen kann Ʈb die Werte -1 und 1 nicht annehmen.
-
Koeffizient Ʈc
Zusammenhangmass für ordinalskalierte Variablen. Hier wird die Differenz der konkordanten und diskonkordanten Paare C-D in Beziehung gesetzt zum theoretischen Maximum dieser Differenz. Wird erreicht, wenn beide Variablen jeweils homogene Häufigkeitsverteilungen besitzen.
-
Indifferenztabelle
Enthält, ausgehend von den Randverteilungen einer Kontingenztabelle die aufgrund der Unabhängigkeitsannahme zu erwartenden Häufigkeiten für die Merkmalskombinationen (xi, yj) zweier Variablen X & Y.
-
X2 - Statistik
Misst den Unterschied zwischen der Kontingenz- und Indifferenztabelle anhand eines Wertes, der zwischen 0 und unendlich liegt.
-
Cramers V
- Zusammenhangmass für nominalskalierte Variablen, bei dem der Wert der X2-Statistik durch das theoretischen Maximum dieser Statistik für die zugrunde liegende Kontingenztabelle geteilt wird.
- Cramers V erfüllt alle Eigenschaften für Zusammenhangmasse zweier nominalskalierterVariablen.
-
Kontingenzkoeffizient
- Zusammenhangmass für nominalskalierte Variablen.
- Beruht auf x2- Statistik und nimmt nur Werter kleiner als 1 an.
-
Korrigierter Kontingenzkoeffizient
Resultiert, wenn der Wert des Kontingenzkoeffizienten durch den max. Wert, den er für eine bestehenden Kontingenztabelle erreichen kann, geteilt wird. Der korrigierte Kontingenzkoeffizient erfüllt alle Eigenschaften für Zusammenhangmasse zweier nominalskalierter Variablen.
-
PRE-Konzept
Es wird die proportionale Reduktion eines definierten Fehlers erfasst, die erfolgt, wenn zur Vorhersage der Werte einer Variablen zusätzlich Infos über eine andere Variable genutzt werden.
-
Cohens K
Spezielles Mass für die Übereinstimmung von zwei Urteilern. Das Mass berücksichtigt den Anteil der zufällig übereinstimmenden Urteile.
-
Koeffizient Durchschnitt
Stellt Cramers V für eine 2 * 2 Kontingenztabelle dar. Er ist identisch mit dem Betrag der Produkt-Moment-Korrelation r für 2 dichotome Variablen.
-
Spezigität eines Tests
Berechnet anhand einer 2 * 2-Kontingenztabelle. Gibt das Verhältnis n11 /n1. wieder, wobei n11 die Anzahl der posit. Testausgänge, die korrekt sind, darstellt und n1. die Anzahl aller posit. Testausgänge.
-
Sensitivität eines Tests
Berechnet anhand einer 2 * 2-Kontingenztabelle. Gibt das Verhältnis n22 / n2. wieder, wobei n22 die Anzahl der korrekten, negat. Testausgänge darstellt und n2. die Anzahl aller negat. Testausgänge.
-
Relatives Risiko
Stellt das Verhältnis der beiden bedingten Häufigkeiten / Risiken n11/n1. / n21/n2. dar, wobei die beiden Zeilen einer Tabelle x unterschiedliche Gruppen repräsentieren und die 1. / 2. Spalte das Auftreten / Nicht-Auftreten eines bestimmten Ereignisses, z.B. Erkrankung.
-
Odds, Chancen
Stellendas Verhältnis der beiden bedingten Häufigkeiten einer Gruppe dar. Mögliche Odds bei 2 * 2 -Kontingenztabellen sind n11 /n1. / n12 /n1. und n21/n2. / n22/n2., wobei beide Zeilen der Kontingenz-Tabelle die zwei unterschiedliche Gruppen repräsentieren und die 1. bzw. 2. Spalte das Auftreten / Nicht-Auftreten eines bestehenden Ereignisses (z.B. Erkrankung).
-
Tetrachorische Korrelation
Zusammenhangsmass für zwei normalverteilte Variablen, die dichotomisiert wurden.
-
Eta (n) und Eta-Quadrat (n2)
Koeffizienten für den Zusammenhang zwischen einer nominal- und intervallskalierten Variablen. Bei n2 wird die Variation zwischen Gruppen (ssb) in Bezug zur Gesamtvariation (ssT) gesetzt. Der Koeffizient n stellt die positive Wurzel aus n2 dar.
-
Punktbiserale Korrelation
Das Mass n für eine dichotome und eine metrische Variable und stimmt mit dem Betrag der Produkt-Moment-Korrelation einer dichotomischen mit einer metrischen Variablen überein.
-
Biserale Korrelation
Zusammenhangsmass für eine intervallskalierte Variable und eine binäre Variable, die auf der Dichotomisierung einer normalverteilten (metrischen) Variablen beruht.
-
Abhängige Variable, Kriterium
Variable, die durch eine unabhängige Variable vorhergesagt bzw. erklärt werden soll.
-
Unabhängige Variable / Prädikator
Dient zur Vorhersage / Erklärung eines Kriteriums. Für eine bestimmte Ausprägung des Prädikators kann der Wert für das Kriterium mittels der Regressionsgleichung vorhergesagt werden.
-
Regressionsgerade
Erlaubt die beste Vorhersage der Werte der abhängigen Variablen anhand des Kriteriums der kleinsten Quadrate.
-
Kleinstes-Quadrate-Kriterium
Die Summe der quadrierten Abweichunngen der beobachteten Werte wird von den anhand der Regressionsgleichung vorhergesagten Werten minimiert.
-
Regressionskoeffizient b0
Gibt dem vorhergesagten Wert für das Kriterium an, wenn der Prädikator den Wert 0 annimmt. Er wird auch Y-Achsenabschnitt bzw. intercept genannt.
-
Regressionskoeffizient b1
Gibt den Einfluss des Prädikators auf das Kriterium y an, d.h. um wie viele Einheiten sich der vorhergesagte Wert für das Kriterium verändert, wenn man den Wert des Prädikators um den Wert 1 erhöht.
-
Standardisierter Regressionskoeffizient b1
Er erfasst, um wie viele Standardabweichungen sich der vorhergesagte Wert des Kriteriums verändert, wenn der Prädikator um eine Standardabweichung erhöht wird. Der standardisierte Regressionskoeffizient stimmt im Falle der einfachen linearen Regression mit dem Korrelationskoeffizienten überein.
-
Standardschätzfehler SEE
Positive Wurzel aus der Schätzfehlervarianz.
-
Determinationskoeffizient R2
Bezeichnet den Anteil der durch die Regression erklärten Variation an der gesamten Variation. R2 ist ein PRE-Mass und stimmt im Fall der einfachen linearen Regression mit dem Quadrat der Korrelation überein.
-
Homoskedastizität
Gleichheit der Fehlervarianzen für alle Ausprägungen der unabhängigen Variablen.
-
Heteroskedastizität
Wenn für mindestens zwei Ausprägungen der unabhängigen Variablen die Fehlerterme ungleiche Varianzen besitzen.
-
Residualplot
Darin werden auf der x-Achse die Werte der unabhängigen oder die vorhergesagten Kriteriumswerte entweder in ursprünglicher oder standardisierter Form abgetragen und auf der y-Achse werden die Residuen in ursprünglicher oder standardisierter Form abgetragen.
-
Ausreisser in einfacher linearer Regression
Beobachtungen, die grosse Fehler aufweisen
-
Einflussreiche Beobachtungen
Beobachtungen, die in einem besonderen Mass die Schätzung der Statistiken der einfachen linearen Regression beeinflussen.
-
Hebelpunkte
Beobachtungen, die von vornherein einflussreiche Beobachtungen darstellen.
|
|