Histogram, krabicový graf, kvantily

normalni <- rnorm(1000)  # 1000 náhodných čísel se standardním normálním rozdělením
hist(normalni)       # histogram

hist(normalni, breaks = 50)   # počet hranic - je to jen doporučená hodnota, často si to udělá stejně po svém

hist(normalni, freq = FALSE)  # normování na relativní četnosti (obdoba hustoty pravděpodobnosti, plocha je 1)

boxplot(normalni)    # krabicový graf

quantile(normalni, probs = c(0.25, 0.5, 0.75))  # kvantily dle přání: dolní kvartil, medián, horní kvartil
##         25%         50%         75% 
## -0.70163085 -0.05758306  0.65401370
median(normalni)    # pro kontrolu medián
## [1] -0.05758306
quantile(normalni, probs = c(0.1, 0.9))  # rozpětí 10 % až 90 %, neboli interval 80 % hodnot
##       10%       90% 
## -1.277428  1.236423

Histogram se hodí pro vykreslení spojitých numerických proměnných – rozdělí se na navazující intervaly a vypočtou se četnosti.

Diskrétní hodnoty hodů kostkou jsou ale spíše faktorová proměnná (místo čísel si můžeme představit např. obrázky), proto vykreslení histogramem nevychází šťastně.

kostka <- sample(1:6, size = 200, replace = TRUE)
hist(kostka)

Lepší je vykreslit ručně zastoupení jednotlivých kategorií pomocí sloupcového grafu

barplot(table(kostka))

barplot(table(kostka), xlab = "číslo", ylab = "četnost", main = "Hody kostkou") # včetně popisků

Úlohy

  1. Vygenerujte 10000 hodnot standardního normálního rozdělení.
  2. Vykreslete histogram se
    1. 3 hranicemi (breaks),
    2. 10 hranicem,
    3. 100 hranicemi.
  3. Zobrazte krabicový graf.
  4. Zjistěte, v jakém rozsahu leží 95 % hodnot směrem od středu (tedy bez okrajů).
    • Nápověda: musíme odkrojit 5 % krajních hodnot, tedy na každé straně 2.5 %.
    • Najděte tedy kvantily pro pravděpodobnosti 2.5 % a 97.5 %.
    • Měly by vyjít hraniční hodnoty zhruba -2 a +2.

© 6. 3. 2015 Tomáš Bořil, borilt@gmail.com