Tento kurz je o spoznaní veľmi užitočného nástroja, ktorým je lineárna regresia. Ide o základný nástroj, ktorý nám pomáha porozumieť vzťahom medzi rôznymi premennými ako aj predikovať. Celý semester sa budeme tiež venovať rôznym rozšíreniam a uvidíme veľké množstvo príkladov a datasetov.
Kurz je veľmi veľkej miery inšpirovaný knihami Juliana Farawaya, ktorému nedávno vyšla tretia edícia Linear models with R (LMwR). Táto kniha je unikátnym mixom téorie, reálnych príkladov a ich implementácie v R.
Tu je môj starší a skomprimovaný prehľad LMwR “obohatený” o moje rôzne vhľady a popletené fantázie. Budem Vám samozrejme vďačný, za akúkoľvek spätnú väzbu. Odporúčam Vám zaobstarať si aj fyzickú kópiu knihy, druhé vydanie postačí.
Webstránka http://lukaslaffers.github.io/linreg1 bude obsahovať všetky relevantné informácie týkajúce sa tohoto kurzu.
13 týždňov (16. september – 10. december, kalendárne týždne 38–50)
(Rozvrh sa možno zmení tak, aby nám vyhovoval.)
Úvodný kurz do pravdepodobnosti a štatistiky, kde sú vysvetlené základné pojmy ako je náhodná premenná, stredná hodnota, variancia, korelácia alebo dôležité vety ako Zákon veľkých čísel alebo Centrálna limita nájdete tu https://lukaslaffers.github.io/pas1/.
Predpokladá sa akási familiarita s výpočtovým prostredím R. Praktický kurz so základným štatistickým balíkom nástrojov je tu https://lukaslaffers.github.io/pas2/.
Taktiež je užitočná znalosť lineárnej algebry, pojmy ako vektor, matica, hodnosť matice, vlastné čísla a vlastné vektory by nemali byť cudzie.
Povinná
Doplnková
Týždeň 1
Pravidlá, úvod, motivácia, základy prieskumovej analýzy dát a
vizualizácie, súhrnné štatistiky
[F: kap. 1, B: kap. 1–2, H]
Týždeň 2
Odhadovanie – lineárny model, odhadovateľ, geometrická intuícia,
príklady, výpočet bety (QR dekompozícia), Gauss–Markovova veta s
dôkazom
[F: kap. 2]
Týždeň 3
Štatistická inferencia – testy hypotéz, likelihood ratio test,
F-rozdelenie, rozklad súčtu štvorcov, rôzne testy, permutačný test,
intervaly spoľahlivosti, bootstrap intervaly
[F: kap. 3, G: kap. 4–5]
Týždeň 4
Predikcia vs. vysvetlenie – intervaly spoľahlivosti, kauzalita,
experimentálne vs. observačné dáta, matching, kvalitatívne dôkazy
kauzality, interpretácia
[F: kap. 4–5]
Týždeň 5
Diagnostika – predpoklady chýb: konštantná variancia, normalita,
korelované chyby, neobvyklé pozorovania: leverage, odľahlé hodnoty,
Cookova štatistika, parciálna regresia
[F: kap. 6]
Týždeň 6
Kolinearita: faktor nafúknutia rozptylu (VIF), praktické problémy, chyby
v prediktoroch, zmena mierky, GLS, testovanie nedostatočnej zhody,
robustná regresia
[F: kap. 7–8]
Týždeň 7
Transformácie – Box–Coxova transformácia, transformácia prediktorov,
broken stick regresia, polynómy
[F: kap. 9]
Týždeň 8
Výber modelu – spätná eliminácia, AIC, BIC, konzistentnosť
vs. efektívnosť, príklady
[F: kap. 10, CH: kap. 2–4]
Týždeň 9
Shrinkage – PCA, PLS, Ridge regresia, LASSO, krížová validácia
[F: kap. 11, FHT: kap. 3–4, WHT]
Týždeň 10
Kompletný príklad: Insurance redlining – analýza dát,
štatistiky, plný model a diagnostika, analýza citlivosti.
Chýbajúce dáta: MCAR, MAR, MNAR, jednoduchá a viacnásobná
imputácia
[F: kap. 12–13]
Týždeň 11
Kategorické prediktory – dvojúrovňový faktor, interakcie, viacúrovňové
faktory, ANOVA, kódovanie kvalitatívnych prediktorov
[F: kap. 14]
Týždeň 12
Prezentácie projektov, kompletný príklad, diskusia, Q&A,
zhrnutie.
Cvičenia budú prevažne vychádzať z úloh na konci kapitol v [F].
Podľa dohody. Ste srdečne vítaní!