Zusammenfassung für das Modul Statistik II
- Wahrscheinlichkeiten
- Stichproben
- Zufallsvariabeln (Eindimensional)
- Zufallsvariablen (mehrdimensional)
- Verteilungen
- Schätzen
Ergebnisse
Ereignis = eine Teilmenge der Ergebnismenge
- Schnittmenge
$A \cap B$ - Vereinigungsmenge
$A \cup B$ - Komplementärmenge
$A^{C}$ bzw.$\bar{A}$
einfachste Wahrscheinlichkeit:
$$
P(A) = \frac{m}{n} = \frac{\text{Anzahl Ereignisse A}}{\text{Gesamtzahl Ereignisse}}
$$
Beispiel: 20 Menschen in Raum, davon 10 cool => Wahrscheinlichkeit mit coolen Menschen zu reden:
Wahrscheinlichkeit von Ereignis A, wenn B schon eingetreten ist = bedingte Wahrscheinlichkeit A gegeben B =
Berechnung:
Beispiel: Porschefahrer: 10% der Bevölkerung sind Porschefahrer und 50% von denen sind Arschlöcher (isso)
- Wahrscheinlichkeit Porschefahrer:
$P(B) = 10%$ - Wahrscheinlichkeit dass Porschefahrer Arschlöcher sind:
$P(A|B) = 50%$
wie hoch ist die Wahrscheinlichkeit, dass zufällige Person vor dir Porschefahrer und Arschloch ist?
wenn die Bedingungen die Ergebnismenge disjunkt zerlegen, heißt alle Möglichkeiten darstellen, bspw. regnet und regnet nicht =
für die Wahrscheinlichkeit A eines Eregnisses:
Beispiel: wie hoch ist die Wahrscheinlichkeit, dass Person vor dir Arschloch ist?
- Arschlöcher unter Porschefahrern :
$P(A|B) \cdot P(B) = 0.05$ - Arschlöcher in Gesamtbevölkerung:
$P(A|\bar{B}) \cdot P(\bar{B}) = 0.9 \cdot 0.2 = 0.045$
mit diesem lässt sich in Verbindung mit der totalen Wahrscheinlichket eine Umkehranalyse betreiben: $$ P(B_i | A) = \frac{P(A|B_i) \cdot P(B_i)}{\sum_{i=1}^{k}P(A|B_{i})* P(B_{i})} = \frac{P(A|B_i) \cdot P(B_i)}{P(A)} $$
Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass das Arschloch vor dir nen Porsche fährt? $$ P(B|A) = \frac{0.5 \cdot 0.1 }{0.095} \approx 53% $$ => obwohl Porschefahrer nur 10% der Bevölkerung ausmachen, stellen sie 53% der Arschlöcher
Graphik der Rückwärtsanalyse
zweier Ereignisse = kein Zusammenhang:
Beispiel: ist es nur zufällig mit den Porschefahrern?
$P(A \cap B) = 0.05$ $P(A) \cdot P(B) = 0.095 \cdot 0.1 = 0.0095$
Wir wollen aus den Eigenschaften einer großen Menge die Eigenschaften einer Stichprobe benennen: bspw. wir wissen alles über Würfel, wie wahrscheinlich ist dann eine Stichprobe, bei der 3 Mal hintereinander eine 6 gewürfelt wird.
wenn Ergebnissmenge eines Experiments nicht bekannt => Stichproben
- aus Stichproben Wahrscheinlichkeit ablesen
- Wahrscheinlichkeit für Objekt in Grundgesamtheit benötigt
wichtig:
- Fakultät
$k!$ und Binomialkoeffizienten$\binom{a}{b}$ - Umfang Grundgesamtheit
$N$ - Umfang Stichprobe
$n$
Anzahl möglicher Stichproben:
mit Zurücklegen | ohne Zurücklegen | |
---|---|---|
mit Reihenfolge | ||
ohne Reihenfolge |
Empfehlenswertes Video zum grundlegenden Verstehen!
mathematisch | Beispiel |
---|---|
Ergebnismenge |
Studis in VL mit Attributen Alter, Kontostand, ... |
Auswahl |
Ein Teilnehmer aus der VL |
Abbildung X auf Omega |
Verteilungen des Alters unter den Studenten |
Kontostand des ausgewählten Studenten |
Alter, Geschlecht etc sind Zufallsvariablen unter den Studierenden
Arten von Zufallsvariablen:
- stetig: nicht abzählbar, kann unendlich sein
- diskret: Zählbar (wie natürliche Zahlen)
Verteilung der Zufallsvariable (stetig oder diskret) = Dichtefunktion f(x) genannt
Kumulieren der Dichtefunktion = Verteilungsfunktion
bei stetigen Variablen muss die Verteilungsfunktion aufwendiger berechnet werden = Integrieren
- Wertebereich:
$X(\Omega) = \mathbb{R}$ -
es gilt:
$f(x) \ge 0 \ \forall x;\ \int_{-\infty}^\infty f(t)dt=1$ - Fläche unter Kurve = 1 = 100%
Beispielrechnung:
- bei Dichtefunktion mit Grenzen:
$f(x) = x\ ,\ a\le x \le b$ - Verteilungsfunktion: $$ F(x) = \begin{cases} 0 & x < a \ \int_a^b x & a \le x \le b \ 1 & x > b \end{cases} $$
und der Test
Würfelwürfe zwischen 2 und einschließlich 5:
- f(x) = Dichte der Würfelwürfe
- F(x) = Verteilungsfunktion der Würfelwürfe
Oder Anzahl Menschen unter 50: (stetiges Alter)
-
$f(x)$ = Dichtefunktion des Alters -
$F(x)$ = Verteilungsfunktion - Gesucht:
$\sum_{i=1}^{50} f(x_i)$
Lösung:
weiteres in der Formelsammlung
Definition: x-Wert, bei dem f(x) maximal
- bei zwei gleichen Werten = undefiniert
- berechnen über Extrema der Funktion?
Gegenstück zu arithmetischen MIttel, meist "Schwerpunkt" / Symmetriestelle der Funktion
diskrete Variable:
$E(X) = \sum_{i=1}^\infin x_i \cdot f(x_i) = x_1 \cdot f(x_1)+ x_2 \cdot f(x_2)+...$ - Beispiel: Erwartungswert eines Würfelwurfes
$\frac{1}{6} \cdot 1+ \frac{1}{6} \cdot 2+ ... = 3.5$
stetige Variable:
$E(x) =\int_{-\infty}^\infty x * f(x)dx$ - Beispiel: Alle 6 Minuten kommt Straßenbahn, wie lange muss ich wahrscheinlich warten wenn ich irgendwann losgehe?
$$ \begin{aligned} E(x) &= \int_{-\infty}^\infty x * f(x)dx \ &= \int_0^6 x * \frac{1}{6}dx \ &= \frac{1}{6}\Big( \frac{1}{2} x^2\Big)\bigg|_0^6 \ &= \frac{1}{12}*(36-0) = \frac{36}{12} = 3 \end{aligned} $$
Berechnung: entweder ablesen, kompliziert berechnen oder mit Normalverteilung später
wie bei Statistik I
Varianz für diskrete X: $$ Var(x) = \sum_{i=1}^\infty x_i^2 *f(x_i) - (E(X))^2 $$ für stetige X $$ Var(x) = \int_{-\infty}^\infty x^2 *f(x)dx - (E(X))^2 $$
Varianz:
Beispiel: Würfel mit E(X) = 3.5 (Standardwürfel) $$ Var(x) = E(X^2) - (E(X))^2 \ E(X^2) = \sum_{i=1}^\infty x_i^2 *f(x_i) = \frac{1}{6} \cdot 1^2+...= 15.666 \ Var(x) = 15.666 - 3.5^2 = 3.4166 \ \sigma_X = \sqrt{3.4166} \approx 1.8480 $$
jetzt eine Abbildung von Stichproben auf mehrere Variablen, beispielsweise Studierende mit Alter X und Notenschnitt Y
für diskrete Verteilungen:
Beispiel
4mal Münzewerfen und Reihenfolge notieren (Z=Zahl, K=Kopf)
- mögliche Kombination:
$N=2, n=4 \to N^n = 16$
mögliche Ereignisse | Verteilung |
---|---|
- von X gegeben Y =
$\frac{\text{Wahrscheinlichkeit dass beides eintritt}}{\text{Wahrscheinlichkeit dass y eintritt}} \to f_X = \frac{f(x,y)}{f_Y(y)}$
Beispiel
Anzahl der Köpfe gegeben Anzahl der Wechsel
also Spalten nehmen und durch Randdichte des gegebenen teilen!
Beispiel in erster Zeile, erster Spalte:
gegeben, wenn
im Beispiel:
Allgemein:
Also: Kovarianz kleiner 0 => große Werte von x hängen mit kleinen Werten von y zusammen
Berechnung: ist scheiße!
Vorgehen: (diskret)
- Randhäufigkeiten bestimmen: bspw. für X: 200/320 und 120/320
- bedingte Häufigkeiten bestimmen: Zelle / Gesamtergebnis: 40/320
- dann alle Zellen mit bedingten Häufigkeiten * Randhäufigkeit X * Randhäufigkeit Y
- und dann alles aufsummieren
Vorgehen: (stetig)
- Randdichte von X bestimmen:
$f_X(x)=\int_a^b f(x,y) dy$ = Dichtefunktion nach Y integrieren - dann
$E(X) = \int_a^b x f_X(x)$ = mit x multipliziert integrieren - Dann
$E(X Y) = \int \int x \cdot y \cdot f(x,y) \ dx dy$
Beispiel:
- E(X) = 1.5
- E(Y) = 2
und dann ganz viel Müll, letztendlich:
=> gibt Zusammenhang zwischen Anzahl Köpfe und Anzahl Wechsel, aber nicht stochastisch unabhängig!
für Verteilungen gibt es einige typische, anhand derer Sachen einfacher berechenbar sind, insbesondere von Interesse ist die Normalverteilung
Verteilungen mit diskreten (abzählbaren) Zufallsvariablen
binäre Verteilung als 0 oder 1
- bspw. Klausur bestanden / nicht bestanden mit Wahrscheinlichkeit p
Dichtefunktion:
ist Spezialfall der Binomialverteilung:
Dichtefunktion: $$ f(x_i) = \underbrace{\binom{n}{x_i}}{\text{Binomkoeff}} * \underbrace{p^{x_i}}{\text{Erfolge}} * \underbrace{(1-p)^{n-x_i}}_{\text{Misserfolge}} $$ Binomkoeffizient beschreibt Anzahl aller möglichen Kombinationen
Binomialverteilung = Situation Ziehen mit Zurücklegen
- Urne mit N Kugeln, davon M mit interessierender Eigenschaft
- n Kugeln ziehen mit Zurücklegen
-
$X \sim Bin(n,p)$ mit$p = M / N$
Ziehen ohne Zurücklegen
- Urne mit N Kugeln, davon M mit interessierender Eigenschaft
- n ziehen ohne zurücklegen
$X \sim Hyp(n,M,N)$
Dichtefunktion: $$ f(x_i) = \frac{ \binom{M}{x_i} * \binom{N-M}{n-x_i} }{ \binom{N}{n}} $$
X diskrete Zufallsvariable: 0, 1, 2, ...
Dichtefunktion:
auch Verteilung der seltenen Ereignisse
"The one Verteilung to rule them all"
- Dichtefunktion:
$f(x)= \frac{1}{\sqrt{2\pi} * \sigma} * exp \Big( - \frac{(x-\mu^2)}{2 \sigma^2}\Big)$ - Erwartungswert =
$\mu$ - Varianz = Standardabweichung^2 :
$\sigma^2 = p$
kovergiert gegen 0, Fläche unter Kurve = 1
Schreibweise:
Falls
Dichte
praktisch für: wir haben eine Verteilung, transformieren sie zu SNV, berechnen was wir berechnen wollen und transformieren zurück
Wahrscheinlichkeit
Rechnerisch: mit R, bspw. hier
x = 1 ## das x
m = 0 ## das mu der Verteilung
sd = 1 ## die Standardabweichung
## Berechnung der Höhe mit pnorm()
dnorm(x,m,sd)
Output:
0.2419
kleiner als: Wahrscheinlichkeiten
Wahrscheinlichkeitsrechnungen bei der Normalverteilung: Wie hoch ist die W., dass Wert x kleiner als 1 ist?
Rechnerisch: mit R, bspw. hier
p = 1 ## der gesuchte Wert
m = 0 ## das mu der Verteilung
sd = 1 ## die Standardabweichung (Wurzel der Varianz!)
## Berechnung der Wahrscheinlichkeit mit pnorm()
pnorm(p,m,sd)
Output:
0.8413447
wenn nicht unterhalb der Wert gesucht wird, sondern oberhalb:
pnorm(p,m,sd,lower.tail=FALSE)
Quantile:
bei welchem Wert werden 69 % der Ereignisse abgedeckt?
Rechnerisch:
q = 0.69 ## der gesuchte Wert
m = 0 ## Mittelwert mu der Verteilung
sd = 1 ## die Standardabweichung
## Berechnung der Wahrscheinlichkeit mit pnorm()
qnorm(p,m,sd)
Output
0.49585
Wir wollen aus den Eigenschaften einer Stichprobe Informationen über die Grundgesamtheit in Erfahrung bringen, bspw. über Würfelwürfe etwas über die Gezinktheit eines Würfels = induktive Statistik
Beispiel: erwarteter Beliebtheitsgrad FDP
Methoden zu Bsp.:
-
Punktschätzung: beste Vermutung für Wert des Parameters in Grundgesamtheit
- FDP wird nicht beliebt sein, nur 7%:
$E(\ \text{Bel}_{FDP} \ ) = 0.07$
-
Intervallschätzung: in welchem Bereich liegt ein Parameter?
- Ich bin mir zu 95% sicher, dass seine Beliebtheit zwischen 5 und 10 % ist
$0.05 \le E(\ \text{Bel}_{FDP} \ ) \le 0.1$
-
Test: Treffen bestimmte Hypothesen zu?
- Ich bin mir zu 99% sicher, dass meine Behauptung
$E(\ \text{Bel}_{FDP} \ ) = 0.07$ stimmt
- Ich bin mir zu 99% sicher, dass meine Behauptung
hoffen wir mal ne 😁
- Suchen Parameter
$\theta$ der Stichprobe$X_1,...,X_n$ - Punktschätzer ist Funktion
$t(X_1,...,X_n)$ - Anwenden dieser Funktion auf Gesamtheit
Erwartungswertschätzer = simpler Durchschnitt
Varianzschätzer:
$\tilde{S}^2 = \frac{1}{n} \sum (X_i-X_n) \text{ mit } E(\bar{S}^2) = \frac{n-1}{n} \sigma^2$ - korrigierter Schätzer:
$S^2 = \frac{1}{n-1} \sum (X_i-X_n) \text{ mit } E(S^2) = \sigma^2$
Beispielaufgabe Schätzer: drei Melonen
$t_1(X_1,X_2,X_3)= \frac{3}{6}(X_1+2 X_2 - X_3)$ $t_2(X_1,X_2,X_3)= \frac{2}{8}(X_1+5 X_2 + X_3)$
Erwartungswerte der Schätzer: ersetzen
Interesse ist Angabe eines Intervalls, das den Parameter enthält
Wahrscheinlichkeit
Standardabweichung der Grundgesamtheit bekannt:
Erinnerung: Standardabweichung
n <- 39 ## Stichprobengröße
mean <- 7.77 ## Stichprobenmittel
sd <- 0.46 ## Stichprobenabweichung (Schätzung)
a <- 0.05 ## alpha
error <- qnorm(1-a/2)*sd/sqrt(n) ## Fehler berechnen mit Normalv.
high <- mean + error
low <- mean - error
print(c(low, high)) ## untere Grenze, obere Grenze
Varianz unbekannt, dafür Standardabweichungschätzung der Stichprobe:
nur bei
n <- 39 ## Stichprobengröße
mean <- 7.77 ## Stichprobenmittel
s <- 0.46 ## Stichprobenabweichung (Schätzung)
a <- 0.05 ## alpha
margin <- qt(1-a/2,df=n-1)*s/sqrt(n) ## Konfidenzfehler aus t-Verteilung
high <- mean + margin
low <- mean - margin
print(c(low, high)) ## untere Grenze, obere Grenze
wir haben eine Hypothese und eine derzeitige Meinung
- Nullhypothese
$H_0$ : "die Erde ist eine Scheibe" - Alternativhypothese
$H_1$ : "Erde hat Kugelgestalt"
=> Testproblem:
wir bauen Entscheidungsregel, ab der wir
|
|
|
---|---|---|
|
Fehler 1. Art | ✅ |
|
✅ | Fehler 2. Art |
Entscheidungsregel sagt, dass Fehler 1. Art nur mit Wahrscheinlichkeit
Arten von Hypothesen:
Test | Hypothese |
Gegenhypothese |
---|---|---|
linksseitig | ||
rechtsseitig | ||
Zweiseitig |
Beispiel:
- Bäcker behauptet, seine Brötchen sind im Schnitt schwerer/exakt 50 Gramm
- ich behaupte, dass die Brötchen kleiner als 50 Gramm sind
Aufbau des Tests: wir suchen realen Durchschnitt
- Brötchengewicht X
- Annahme: Brötchen sind normalverteilt
$X \sim N(\mu, \sigma^2)$ -
$H_0: \mu \ge 50$ vs.$H_1: \mu < 50$ (unzufrieden)
Durchführung:
- wir ziehen Stichgröße vom Umfang n
$X_1, ...,X_n$ -
$\bar{X}$ = Durchschnittsgewicht = Prüfgröße
Berechnung: (mit beispielhaften Werten)
$\sigma^2 = 1.44$ $\alpha = 5%$ $\bar{X} = 51$ $S = 2.5$
Entscheidungsregel: (aus Formelsammlung: t-Test, linksseitig)
gauß-test in R
maschine mit Varianz = 0.5
Stichprobe mit 36 Schrauben, Durchschnitt=9.7, Varianz= 0.5
-
$H_0: \mu = 10$ (Schrauben sind im Durchschnitt 10 cm lang) -
$H_1: \mu \ne 10$ (nein sind sie nicht)
library(compositions)
## x <- c() ## wenn reale Daten
x <- rnorm(36,9.7, 0.5) ## oder erstellen (n,mean,sd)
Gauss.test(x, y = NULL,
mean = 10, ## Nullhypothese über mu
sd = 0.5, ## die Varianz der Grundgesamtheit
alternative = "two.sided") ## "two.sided", "less", "greater"
Output:
data: x
T = 9.8378, mean = 10, sd = 1, p-value = 0.05185
alternative hypothesis: two.sided
p > 0.05 = schlechte
Maschine muss rekalibriert werden, um Durchschnitt von 10cm wiederzubekommen.
t-test in R
## x <- c() ## wenn reale Daten der Stichprobe
x <- rnorm(29,85.74, 3.43) ## oder erstellen (n,mean,sd)
t.test(x, y = NULL,
alternative = "two.sided", ## "two.sided", "less", "greater"
mu = 84.1,
conf.level = 0.95,)
## Output: true mean is not equal to 84.1
praktische Sachen für Prüfung
- Bei Entscheidungen gegen H0 und damit für H1 spricht man von einem signifikanten Ergebnis
- Konfidenznivau + Signifikanzniveau = 100%