Lineárna regresia 1
Tento kurz je o spoznaní veľmi užitočného nástroja, ktorým je lineárna regresia. Ide o základný nástroj, ktorý nám pomáha porozumieť vzťahom medzi rôznymi premennými ako aj predikovať. Celý semester sa budeme tiež venovať rôznym rozšíreniam a uvidíme veľké množstvo príkladov a datasetov.
Kurz je veľmi veľkej miery inšpirovaný knihami Juliana Farawaya, ktorému nedávno vyšla tretia edícia Linear models with R (LMwR). Táto kniha je unikátnym mixom téorie, reálnych príkladov a ich implementácie v R.
Tu je môj starší a skomprimovaný prehľad LMwR “obohatený” o moje rôzne vhľady a popletené fantázie. Budem Vám samozrejme vďačný, za akúkoľvek spätnú väzbu. Odporúčam Vám zaobstarať si aj fyzickú kópiu knihy, druhé vydanie postačí.
Webstránka http://lukaslaffers.github.io/linreg1 bude obsahovať všetky relevantné informácie týkajúce sa tohoto kurzu.
Súbory
Slajdy: 1 2 3 4 5 6 7 8 9 10 11 všetky slajdy
R z prednášky: 1 2 3 4 5 6 7 8 9 10 11 všetky R súbory
R cvičenia (teoretické): 1 2 3 4 5 6 7 8 9 10 11 všetky riešenia
R cvičenia (praktické): 1 2 3 4 5 6 7 8 9 10 11 všetky riešenia
Misc:
- Dunning Krueger misunderstood(?), článok v N, kód
- Regression to mean simulácia
- Cv 14oct, R
- Kauzalita z neexperimentálnych dát
- interpretácia parametrov
- volebné dáta k cvičeniam 7
- o p-hodnotách v 2016 zatriasla štatistickým svetom diskusia American Statistical Association o p-hodnotách
- mnohorozmerné dáta populárne
Rozvrh
13 týždňov (16. september – 10. december, kalendárne týždne 38–50)
- Utorok 13:50 – 15:25 F237 Cvičenia
- Streda 15:25 – 17:40 F237 Prednáška/Cvičenie
Predpokladané vstupné znalosti:
Úvodný kurz do pravdepodobnosti a štatistiky, kde sú vysvetlené základné pojmy ako je náhodná premenná, stredná hodnota, variancia, korelácia alebo dôležité vety ako Zákon veľkých čísel alebo Centrálna limita nájdete tu https://lukaslaffers.github.io/pas1/.
Predpokladá sa akási familiarita s výpočtovým prostredím R. Praktický kurz so základným štatistickým balíkom nástrojov je tu https://lukaslaffers.github.io/pas2/.
Taktiež je užitočná znalosť lineárnej algebry, pojmy ako vektor, matica, hodnosť matice, vlastné čísla a vlastné vektory by nemali byť cudzie.
Odporúčaná literatúra
Povinná
- [F] Julian Faraway: Linear Models with R, 2. vydanie, CRC Press.
Sprievodná webstránka: http://www.maths.bath.ac.uk/~jjf23/LMR/
Doplnková
- [P] Ding, P. (2024). Linear model and extensions. arXiv preprint arXiv:2401.00649.https://arxiv.org/pdf/2401.00649
- [C] Crawley, M. J. Statistical modelling. The R Book, 2. vydanie (2007): 388–448.
- [B] Berk, R. A. Statistical Learning from a Regression Perspective. Springer, 2008.
- [G] Greene, W. H. Econometric Analysis (International edition). 2000.
- [H] Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2009.
- [CH] Claeskens, G., Hjort, N. L. Model Selection and Model Averaging. Cambridge UP, 2008.
- [FHT] Friedman, J., Hastie, T., Tibshirani, R. The Elements of Statistical Learning. Springer, 2001. http://statweb.stanford.edu/~tibs/ElemStatLearn/
- [WHT] James, G., Witten, D., Hastie, T., Tibshirani, R. An Introduction to Statistical Learning with Applications in R. Springer, 2013.
Osnova kurzu (odkazy v zátvorkách)
Téma 1
Pravidlá, úvod, motivácia, základy prieskumovej analýzy dát a vizualizácie, súhrnné štatistiky
[F: kap. 1, B: kap. 1–2, H]Téma 2
Odhadovanie – lineárny model, odhady, geometrická intuícia, príklady, výpočet bety, Gauss–Markovova veta s dôkazom
[F: kap. 2]Téma 3
Štatistická inferencia – testy hypotéz, likelihood ratio test, F-rozdelenie, rozklad súčtu štvorcov, rôzne testy, permutačný test, intervaly spoľahlivosti, bootstrap intervaly
[F: kap. 3, G: kap. 4–5]Téma 4
Predikcia vs. vysvetlenie – intervaly spoľahlivosti, kauzalita, experimentálne vs. observačné dáta, matching, kvalitatívne dôkazy kauzality, interpretácia
[F: kap. 4–5]Téma 5
Diagnostika – predpoklady chýb: konštantná variancia, normalita, korelované chyby, neobvyklé pozorovania: leverage, odľahlé hodnoty, Cookova štatistika, parciálna regresia
[F: kap. 6]Téma 6 Kolinearita: faktor nafúknutia rozptylu (VIF), praktické problémy, chyby v prediktoroch, zmena mierky, GLS, testovanie nedostatočnej zhody, robustná regresia
[F: kap. 7–8]Téma 7 Problémy s chybami. Zovšeobecnený lineárny model, heteroskedasticita, robustné variatny regresie.
[F: kap. 7–8]Téma 8
Transformácie – Box–Coxova transformácia, transformácia prediktorov, broken stick regresia, polynómy
[F: kap. 9]Téma 9
Výber modelu – spätná eliminácia, AIC, BIC, konzistentnosť vs. efektívnosť, príklady
[F: kap. 10, CH: kap. 2–4]Téma 10
Shrinkage – PCA, Ridge regresia, LASSO, krížová validácia
[F: kap. 11, FHT: kap. 3–4, WHT]Téma 11
Kategorické prediktory – dvojúrovňový faktor, interakcie, viacúrovňové faktory, ANOVA, kódovanie kvalitatívnych prediktorov
[F: kap. 14]Téma 12
Písomná skúška, zhrnutie, diskusia, Q&A, zhrnutie.
Cvičenia budú prevažne vychádzať z úloh na konci kapitol v [F].
Konzultačné hodiny
Podľa dohody. Ste srdečne vítaní (naozaj)!
Hodnotenie
- 30 % – priebežné hodnotenie
- 70 % – záverečná skúška
