Testy a p-hodnota

Zatímco nulová hypotéza H0 specifikuje jeden konkrétní případ nějakého parametru ZS (např. střední hodnota normálního rozdělení \(\mu _0 = 10\)), alternativní hypotéza H1 bývá volnější a připouští „spousty jiných alternativ“ (např. střední hodnota \(\mu _0 > 10\) u tzv. jednostranného testu nebo \(\mu _0 \ne 10\) u tzv. oboustranného testu).

Každý konkrétní test si pro účely porovnávání konkrétní testované záležitosti počítá z VS určitým vzorcem tzv. testovou statistiku (neplést s oborem „statistika“), což je pro jeden určitý VS jedno výsledné číslo. Například jednovýběrový t-test vypočte z VS o velikosti \(n\) vzorků průměr \(\bar x\) a směrodatnou odchylku \(s\), z čeho pak počítá svou statistiku \(t = \frac{\bar x - {\mu _0}}{s/\sqrt n },\) kde \(\mu _0\) je porovnávaná střední hodnota dle H0. Ve vzorci lze vidět centrování požadovanou střední hodnotou (tedy v případě H0 vycentrujeme rozdělení kolem nuly) a normování směrodatnou chybou (souvislost s intervalem spolehlivosti).

Vzhledem k tomu, že H0 je pevně daná, není problém ze ZS s těmito jasnými parametry vygenerovat velké množství náhodných VS, pro každý vypočítat jeho „testovou statistiku“ (1 číslo) a z těchto čísel zkonstruovat histogram – získáváme tak tzv. nulové rozdělení. (Zajímavost: Pro základní testy matematici odvodili obecné vztahy, takže není potřeba provádět toto empirické zjišťování tvaru histogramu, protože již máme odvozený přesný tvar příslušné hustoty pravděpodobnosti.)

Nr <- 10000      # počet realizací - opakování pokusů pro konstrukci histogramu nulového rozdělení
statistikyH0 <- numeric(Nr)   # příprava prázdného vektoru pro uložení výsledků

velikostVS <- 5  # počet vzorků v jednom VS
mi0 <- 10        # střední hodnota ZS podle H0

for (i in 1:Nr) {
    VS <- rnorm(n = velikostVS, mean = mi0, sd = 17)  # na sd nezáleží, může to být náhodné číslo
    statistikyH0[i] <- (mean(VS) - mi0) / (sd(VS) / sqrt(length(VS)))
}

hist(statistikyH0, breaks = 50, col = "skyblue", xlim = c(-10, 15))

Situace s H1 je ale těžší, zde bývá často hned nekonečně možných alternativních variant. Představme si například jednu konkrétní, a sice \(\mu = 30.\) To je opět nějaký jeden ZS, ze kterého můžeme vybrat mnoho náhodných VS, spočítat pro každý jeho testovou statistiku, a z nich pak histogram rozdělení.

Důležité: Je jasné, že nulové rozdělení a toto jedno konkrétní alternativní rozdělení se většinou budou překrývat.

Nr <- 10000      # počet realizací - opakování pokusů pro konstrukci histogramu jedné konkrétní možnosti ZS s H1
statistikyH1 <- numeric(Nr)   # příprava prázdného vektoru pro uložení výsledků

velikostVS <- 5  # počet vzorků v jednom VS
mi <- 30        # střední hodnota ZS podle H1
sigma <- 9      # nějaká jedna možnost směrodatné odchylky ZS při H1

for (i in 1:Nr) {
    VS <- rnorm(n = velikostVS, mean = mi, sd = sigma)
    statistikyH1[i] <- (mean(VS) - mi0) / (sd(VS) / sqrt(length(VS)))
}

hist(statistikyH0, breaks = 50, col = "skyblue", xlim = c(-10, 15), xlab = "Statistiky", ylab = "Četnost",
     main = "")
hist(statistikyH1, breaks = 100, col = scales::alpha("red", .5), add = TRUE, xlim = c(-10, 15))
legend("topright", c("H0", "H1"), col = c("skyblue", "red"), lwd = 5)
abline(v = 2.5, lwd = 3, lty = "dashed")  # Volitelně stanovená hranice pro rozhodování testu

My nyní naštěstí víme skutečné hodnoty na pozadí jednotlivých situací, „hrajeme s otevřenými kartami“ a můžeme tak sledovat, na základě jaké logiky se chudák test musí rozhodnout, když má k dispozici jen jeden určitý VS a nezná parametry ZS, ze kterého vznikl.

Rozdělení H0 a H1 se překrývají, přičemž možných rozdělení H1 bývá hned nekonečně mnoho. Test si tedy někde stanoví hranici pro testovou statistiku. Tam, kde už H0 nebývá příliš často. A od této hranice dále již bude rozhodovat pro H1, i když si je vědom, že to nemusí být správně. Ale co jiného mu zbývá, když je zde překryv?

Plocha odříznutých okrajů nulového rozdělení touto hranicí se nazývá hladinou významnosti \(\alpha\) a je to přesně stanovený poměr případů H0, kterých se dobrovolně vzdáváme (před spuštěním testu si můžeme tuto hodnotu zvolit podle libosti), abychom měli vůbec někdy šanci odhalit H1. Znamená to, že pokud bude pro ZS platit H0, tak při nekonečném množství náhodně vybraných VS dojde přesně v \(\alpha %\) případů (poměrné číslo) k tzv. chybě 1. druhu, tedy přijmutí H1, přestože platí H0. V případě jednostranného testu odřezáváme jen jednu stranu nulového rozdělení, u oboustranného testu oba okraje.

Statistika <- seq(-7, 7, length.out = 500)

par(mfrow = c(1, 2), mar = c(4, 4, 3, 0))

plot(Statistika, dt(Statistika, velikostVS-1), type = "l", frame = FALSE, ylab = "Pravděpodobnost",
     main = "H0, jednostranný test")

q95 <- qt(0.95, velikostVS-1)  # 95% kvantil
p95 <- seq(from = q95, to = 7, length.out = 200)  # okraj jednostranného testu
polygon(c(7, q95, p95), c(0, 0, dt(p95, velikostVS-1)), col = "skyblue")
text(5, 0.05, "alfa = 5 %")    # text na uvedených souřadnicích
abline(v = q95, lwd = 3, lty = "dashed")

plot(Statistika, dt(Statistika, velikostVS-1), type = "l", frame = FALSE, ylab = "",
     main = "H0, oboustranný test")

q2_5 <- qt(0.025, velikostVS-1)  # 2.5% kvantil
q97_5 <- qt(0.975, velikostVS-1)  # 97.5% kvantil
p97_5 <- seq(from = q97_5, to = 7, length.out = 200)  # pravý okraj oboustranného testu
polygon(c(7, q97_5, p97_5), c(0, 0, dt(p97_5, velikostVS-1)), col = "skyblue")
p2_5 <- seq(from = -7, to = q2_5, length.out = 200)  # pravý okraj oboustranného testu
polygon(c(q2_5, -7, p2_5), c(0, 0, dt(p2_5, velikostVS-1)), col = "skyblue")
text(5.2, 0.08, "alfa = 5 %")
text(5, 0.03, "2.5 %")
text(-5, 0.03, "2.5 %")
abline(v = q2_5, lwd = 3, lty = "dashed")
abline(v = q97_5, lwd = 3, lty = "dashed")

Pokud platí H1, opět máme jeden konkrétní VS, pro který vypočteme testovou statistiku. Pokud leží za hranicí, test se rozhodne (správně) pro přijmutí H1, pokud leží před hranicí, rozhodne se (špatně) pro nezamítnutí H0 (tzv. chyba 2. druhu). Plocha takto nesprávně odřízlé hustoty pravděpodobnosti H1 se nazývá \(\beta\) a doplněk k ní se nazývá síla testu. Čím je test silnější, tím větší je šance objevit H1. Problém je ale v tom, že variant ZS pro H1 je mnoho a pro každý vychází jiná \(\beta\). Ta se proto nedá obecně stanovit, když neznáme parametry konkrétního ZS. Nicméně víme, čím je ovlivněna. Např. čím menší \(\alpha\), tím větší \(\beta\) (ovšem součet není 100 %, jedná se jen o plochy odřízlých okrajů rozdělení). Čím větší vzdálenost ZS od H0, tím menší \(\beta\) (větší šance objevit H1 a nedopustit se chyby 2. druhu). Čím menší rozptyl ZS, tím menší \(\beta\), protože se rozdělení méně překrývají (což se děje právě i při zmiňované větší vzdálenosti středů).

Všechny testy dávají na svém výstupu normalizovaný koeficient, tzv. p-hodnotu, jejíž význam je následující. Pro konkrétní VS spočítáme testovou statistiku, kterou si vyneseme v grafu nulového rozdělení. Plocha okrajů hustoty pravděpodobnosti od této hodnoty dále (směrem od středu rozdělení) je právě p-hodnota (v případě jednostranného testu plocha jednoho okraje, v případě oboustranného testu plocha symetricky obou okrajů). Je to tedy sjednocená míra, jejímž hodnotám každý rozumí. Udává, jak vzácný je VS pro H0, na jakém poměru okrajů jejího rozdělení VS leží. čím je p-hodnota nižší, tím je VS pro H0 vzácnější.

Rozhodování testu je pak následující:

\(p \geqslant \alpha\) (testová statistika leží uvnitř hranic typických hodnot pro H0): Nezamítáme H0 (buď platí H0, a nebo data nejsou přesvědčivá pro přijmutí H1).
\(p < \alpha\) (testová statistika leží již na okraji velmi vzácných hodnot pro H0): Přijímáme H1.

VS <- rnorm(n = velikostVS, mean = mi0, sd = 35)   # jeden konkrétní VS
statistika <- (mean(VS) - mi0) / (sd(VS) / sqrt(length(VS)))  # vypočteme statistiku
p <- pt(statistika, velikostVS-1, lower.tail = FALSE)         # p-hodnota

Statistika <- seq(-7, 7, length.out = 500)
plot(Statistika, dt(Statistika, velikostVS-1), type = "l", frame = FALSE, ylab = "Pravděpodobnost",
     main = "Jednostranný test, p-hodnota konkrétního VS")
pr <- seq(from = statistika, to = 7, length.out = 200)  # okraj jednostranného testu
polygon(c(7, statistika, pr), c(0, 0, dt(pr, velikostVS-1)), col = "skyblue")
text(4.5, 0.05, paste0("p = ", round(p, 2), " >= 0.05"))    # text na uvedených souřadnicích

abline(v = q95, lwd = 3, lty = "dashed")  # Volitelně stanovená hranice podle alfy pro rozhodování testu

V tomto případě vyšla p-hodnota tak, že se test při stanovené hranici \(\alpha = 0.05\) rozhodne nezamítnout H0, obdržená statistika je velice častá pro hodnoty H0.

Interaktivní experiment

Zkopírujte si následující program do RStudia a spusťte ho. Doporučuji roztáhnout okno s obrázkem na větší velikost.

Případně přejděte na webovou aplikaci https://bbtomas.shinyapps.io/phodnota/. Pokud se zobrazí šedivá stránka, stiskněte v prohlížeči tlačítko „Načíst tuto stránku znovu“ (Reload, Refresh).

library(manipulate)
mi0 <- 10
Nr <- 1000      # počet realizací - opakování pokusů pro konstrukci histogramu jedné konkrétní možnosti ZS s H1
statistikyH0 <- numeric(Nr)   # příprava prázdného vektoru pro uložení výsledků
statistikyH1 <- numeric(Nr)

myplot <- function(sigma, mi, velikostVS, alfa) {
    set.seed(1)
    qAlfa <- qt(1-alfa, velikostVS-1)  # kvantil pro hladinu významnosti alfa (jednostranný test)

    for (i in 1:Nr) {
        VS <- rnorm(n = velikostVS, mean = mi0, sd = 17)  # na sd nezáleží, může to být náhodné číslo
        statistikyH0[i] <- (mean(VS) - mi0) / (sd(VS) / sqrt(length(VS)))
    
        VS <- rnorm(n = velikostVS, mean = mi, sd = sigma)
        statistikyH1[i] <- (mean(VS) - mi0) / (sd(VS) / sqrt(length(VS)))
    }
    
    hist(statistikyH0, breaks = c(-Inf,seq(-10, 15, by=0.5),Inf), col = "skyblue", xlim = c(-10, 15),
         xlab = "Statistiky", ylab = "Relativní četnost", main = "")
    hist(statistikyH1, breaks = c(-Inf,seq(-10, 15, by=0.5),Inf), col = scales::alpha("red", .5), add = TRUE,
         xlim = c(-10, 15))
    legend("topright", c("H0", "H1"), col = c("skyblue", "red"), lwd = 5)
    abline(v = qAlfa, lwd = 3, lty = "dashed")  # Volitelně stanovená hranice pro rozhodování testu
}
manipulate(
    myplot(sigmaAlternativni, miAlternativni, velikostVS, alfa),
    miAlternativni = slider(10, 40, step = 1, initial = 30),
    sigmaAlternativni = slider(1, 30, step = 1, initial = 9),
    velikostVS = slider(2, 30, step = 1, initial = 5),
    alfa = slider(0.01, 0.1, step = 0.01, initial = 0.05)
    )

Úlohy

Spusťte si interaktivní demonstraci a sledujte, jaký vliv mají jednotlivé parametry.
Představte si nějaký hypotetický VS, pro který vyjde určitá testová statistika.
- Ukažte, jak byste ji vynesli do grafu a jak byste z ní odvodili příslušnou p-hodnotu.
- Pro testové hodnoty v jaké oblasti test nezamítá H0 a pro hodnoty v jaké oblasti test přijímá H1?
Ukažte na obrázku, kde je \(\alpha\), kde \(\beta\) a kde je síla testu. Co znamenají tyto pojmy, v jakých situacích nastávají? (vyberte vždy kombinaci: ve skutečnosti platí H0/H1, test rozhodl pro H0/H1)
- Je pravda, že \(\beta\) a síla testu dají dohromady vždy 100 %? [Odpověď: ano]
- Je pravda, že \(\alpha + \beta\) je vždy dohromady 100 %? [Odpověď: ne]
- Je pravda, že \(\alpha\) a síla testu dají dohromady vždy 100 %? [Odpověď: ne]
- Je pravda, že \((1 - \alpha) + \beta\) je vždy dohromady 100 %? [Odpověď: ne]
Uvažujte reálnou situaci, kdy na vstup testu dáváme VS z neznámého ZS, nevíme tedy, zda pro něj platí H0 či H1, ani netušíme skutečnou střední hodnotu ZS a jeho směrodatnou odchylku. Přesto bychom rádi v případě, že pro něj platí H1 (což nevíme), měli co největší šanci H1 objevit (tedy nedopustit se chyby 2. druhu, kdy platí H1 a test zůstává raději u nezamítnutí H0).
- Posuvníky miAlternativni a sigmaAlternativni nemá smysl hýbat, protože jejich hodnoty neznáme, v této situaci je nemůžeme ovlivňovat, protože zkrátka ZS je, jaký je, a my to nezměníme.
- Jakým jediným rozumným způsobem můžeme snižovat riziko chyby 2. druhu (tedy zvyšovat sílu testu), když nechceme zároveň zvyšovat riziko chyby 1. druhu? (odmítáme tedy hýbat s posuvníkem alfa)
- Zbývá nám už jen jeden volný posuvník a jeho vliv může být skutečně obrovský, zvláště když jsou jeho hodnoty nepříjemně špatné.

Závěr: Zvyšovat \(\alpha\), abychom snížili \(\beta\), není dobrou praxí. \(\alpha\) by měla být dána konkrétním oborem, ve kterém průzkum provádíme. Jaké nejvyšší riziko chyby 1. druhu si můžeme dovolit? Jakou chybu \(\alpha\) ještě sneseme, aby nám tolik nevadila? Z toho pak automaticky vyplyne, jak velký VS musíme pořídit, abychom měli šanci udělat objev ve smyslu případného přijmutí H1. Při malé \(\alpha\) budou potřeba větší VS, což např. v lingvistických oborech může být problém, ale zde při chybě 1. druhu zase tak veliké škody nenapácháme, jako např. v medicíně, kde je nutné volit velice nízkou \(\alpha\) a provádět analýzy velkých VS. A dokud nás data nepřesvědčí, raději zůstávat u H0.

K zamyšlení: Jak prokázat H0? Platí H1 vždy?

K této sekci se spíše vraťte, až budete mít za sebou praktické kapitoly o testování rozdělení, četností a středních hodnot. Pak totiž získáte lepší představu o smyslu následujících úvah. Zatím si jen přečtěte a berte v potaz následující závěry.

Pro začátek rovnou shrnutí. Pozor, jak je celý aparát testování hypotéz postaven, H0 prokázat nikdy nelze. Prokazovat s jistou dávkou rizika (\(\alpha\)) lze vždy jen H1 (pak zamítáme H0), ale nelze se snažit o opak, o prokazování H0. H0 nelze prokázat tím, že ji nezamítneme.

H0 je jeden jasně definovaný vzor, se kterým porovnáváme naše data. Z hlediska praktického však za splnění H0 považujeme i blízké okolí vzoru H0 (určité pásmo plus mínus). Např. H0 sice říká střed = 10, prakticky nám ale třeba vše v pásmu 9.98 až 10.02 může přijít ještě také jako skoro H0. Všechny hodnoty mimo 10 jsou ale pro matematiku už striktně H1. Jediný způsob, jak prokázat takovou praktickou H0, je ve skutečnosti prokázat H1 (třeba oněch 10.02), tedy pořídit dostatečnou velikost vzorku, aby byl výsledek statisticky signifikantní - matematické „zaostření“ odhadu reality, a říct, že od vzoru H0 je prakticky nevýznamně vzdálena. Leží v pásmu H0 plus mínus, které pořád fakticky považujeme za H0. Tedy říct, že pozorovaný rozdíl je statisticky významný, avšak prakticky nepatrný. V opačném případě, dokud je dat málo a pozorovaný rozdíl není statisticky významný, nemůžeme totiž říct nic, protože data jsou matematicky „rozmazaná“, nejasná.

Platí H1 v případě oboustranného testu vždy?

Je reálně nemožné, aby dvě populace (např. chlapci vs. dívky) měly střední hodnotu čehokoliv „naprosto přesně stejnou“. Takže v takových případech vlastně vždy platí H1 (to je šok, že?)

Vždy pozorujeme nějaký rozdíl. A když zrovna ne, je to opět jen dílem náhody, takže tomu stejně nemůžeme přikládat význam. I dva základní soubory budou mít prakticky vždy různé střední hodnoty. Těžko předpokládat, že nalezneme na Zemi dva naprosto stejně vysoké lidi. Pokud budeme zaokrouhlovat na centimetry, tak asi ano, ale pokud budeme měřit skutečně přesně na veliký počet desetinných míst, drobný rozdíl vždy bude. Stejně tak to dopadne, když bychom chtěli nalézt dvě různé skupiny se stejnou průměrnou výškou. A tak to tedy bude s hypotézou H0, která deklaruje, že něco se rovná přesně něčemu. A to ani raději neřeším, že může být pěkně těžké přesně popsat, co je náš základní soubor. Bavíme-li se např. o populaci všech Čechů, ve skutečnosti se tento základní soubor neustále proměňuje. Každou chvilku se někdo narodí, někdo umře, vlastně i význam toho, co je to „být Čech“, je v čase proměnlivý, takže prakticky žádná přesná dlouhodobě konstantní střední hodnota takového základního souboru ani není. Ať definujeme H0 jakkoliv, víme, že vždy bude existovat nějaký rozdíl, vždy bude platit H1. Proto potřebujeme testování hypotéz nějak rozumně uchopit.

Proč tedy vůbec hypotézy testujeme? Testování hypotéz má ve skutečnosti následující smysl.

H0 je vzor. Něco, s čím porovnáváme naše data. Protože když chceme porovnávat, musíme mít s čím. Stanovíme si jeden pevný, jasně definovaný vzor. I když je nám už dopředu jasné, že nikdy nic nebude přesně to ono. To nevadí, hlavní je, že máme jakýsi pevný bod, etalon, naši H0.

Pokud testu dodáme málo dat, test zůstává u H0 (jsou široké intervaly spolehlivosti, „pravda je zamlžena“, překrývají se, nelze rozhodnout, test pravdu nevidí). To je pro nás skvělá a cenná informace, že a) musíme dodat více dat (ideálně), a nebo b) prakticky se nám už nechce pokračovat, výsledek nám stačí, za zvýšenou námahu to nestojí, začínáme nabývat pocitu, že i kdybychom nakonec nějaký statisticky významný rozdíl našli, prakticky by dost možná nebyl příliš veliký a zajímavý.

Pokud se vydáme cestou a), jednou určitě dospějeme do stádia, kdy H1 objevíme. Budeme mít takové množství položek, že intervaly spolehlivosti budou velice úzké (realita se dostatečně zaostří), takže se nebudou překrývat a test rozhodne, že např. \(9.999998 \pm 0.000001\) není rovno \(10.000001 \pm 0.000001\). A nyní nastává to nejdůležitější, zdravý rozum. Tedy ta nejdůležitější věta, kterou má J. Volín ve své knize, a já ji také na přednáškách zdůrazňuji, že „statistická významnost nerovná se praktická významnost“.

Ano, rozdíl jsme nalezli, statistika nám potvrdila, že máme dost dat a výsledek je v pořádku (není příliš zamlžen náhodou). A teď je na nás, abychom rozhodli, zda takto veliký rozdíl je pro nás prakticky významný či není. Ve fonetice (a dalších vědách propojených s psychologií) se proto používá „just noticible difference“, minimální postřehnutelný rozdíl, diference limen. A tušíme, že třeba rozdíl 1 Hz u formantů sice rozdíl je, ale pod hranicí lidského vnímání, tudíž je to prakticky totéž. Bez statistické významnosti se nemá smysl bavit o praktické významnosti. Statisticky nevýznamný výsledek znamená v podstatě nedůvěryhodná čísla. Pokud splníme první krok, statistickou významnost, můžeme se bavit o druhém kroku, praktické významnosti.

Lze prokázat H0?

S prokazováním H0 je opravdu problém. Skutečně tak, jak jsou statistické testy s hypotézami H0 a H1 postaveny, není možné „potvrdit H0“, tedy že něco „je přesně rovno“. Ono v reálu totiž skoro ani být nemůže. Proto vždy spíše zjišťujeme, zda pozorovaný rozdíl je již statisticky významný (s jasným rizikem chyby \(\alpha\)), nebo může být ještě jen dílem náhody. Viz http://liesandstats.wordpress.com/2008/10/25/you-cant-prove-the-null-by-not-rejecting-it/

Určité řešení se snaží poskytnout can_we_prove_the_null_hypothesis_H0.pdf Začátek textu je dobrý, ale se závěrem (heuristický přístup) nelze souhlasit (viz předchozí odkaz). Je jasné, že čím méně dat, tím větší šance, že test nevyvrátí H0. To by se nám občas líbilo! Kdysi si dokonce jedna studentka u obhajoby své diplomové práce na test vyloženě stěžovala, že čím mu poskytne více dat, tím hůře ve prospěch její hypotézy H0 test vychází :-) Málo dat vede na nevyvrácení H0. Jenže nevyvrácení neznamená přijmutí. Nevyvrácení H0 znamená málo dat na přijetí H1.

Místo „nezamítání“ bychom raději „přijímali“. Místo „zamlžené“ reality bychom raději viděli „ostrou“ skutečnost. Místo malého množství dat tak můžeme poskytnout velké množství dat. Ale ani tím nezvýšíme šanci na přijetí H0, naopak, zvyšujeme šanci zamítnutí H0. Hodně dat totiž snižuje riziko chyby 2. druhu \(\beta\) (neobjevení H1), zvyšuje se tedy síla testu (šance objevení H1, \(1-\beta\)).

Zajímavé je, že zatímco \(\alpha\) (riziko mylně přijaté H1) si můžeme přesně stanovit, \(\beta\) (riziko neobjevení H1) vychází pro každou jednu konkrétní realizaci H1 jinak (např. jestliže H0 říká střed = 12, tak jedna možná realizace H1 bude střed = 13, jiná realizace H1 bude, když střed = 17, tu bude jednodušší objevit (\(\beta\) bude menší), protože je od H0 dále). Je jasné, že takových různých H1 je nekonečně možností!

Statistické testování s hypotézami H0 a H1 je postaveno na důkazu sporem, tedy jednu věc prokážeme tak, že zamítneme opak. Vymyslíme si jednu jasnou H0 a vše ostatní představuje H1, kterou bychom rádi prokázali. Pokud se nám podaří náporem důkazních dat prokázat, že H0 neplatí, přijímáme H1. Pokud bychom to však obrátili a chtěli přijmout H0, museli bychom důkazními daty zamítnout H1, a to ale všechny její varianty. A v tom je ten problém. Jednu konkrétní variantu H1 můžeme s jistou mírou pevně stanovené chyby zamítnout, to není problém, ale co těch zbylých nekonečně mnoho jiných základních souborů také spadajících pod H1? Zkrátka, H0 tímto postupem přijmout nelze.

Jediný způsob, jak něco dokázat, je pořídit dostatek dat, která umožní zaostřit vnímání reality. Pak uvidíme, že realita odpovídá H1, ale je možné, že tato konkrétní realizace H1 bude naší H0 tak blízká, že řekneme, že z praktického hlediska je výsledek podobný naší H0.

Je zvláštní, jak málo se o této logice v učebnicích statistiky hovoří, přitom je to vlastně naprostý základ.