Lineárna regresia 1

Tento kurz je o spoznaní veľmi užitočného nástroja, ktorým je lineárna regresia. Ide o základný nástroj, ktorý nám pomáha porozumieť vzťahom medzi rôznymi premennými ako aj predikovať. Celý semester sa budeme tiež venovať rôznym rozšíreniam a uvidíme veľké množstvo príkladov a datasetov.

Kurz je veľmi veľkej miery inšpirovaný knihami Juliana Farawaya, ktorému nedávno vyšla tretia edícia Linear models with R (LMwR). Táto kniha je unikátnym mixom téorie, reálnych príkladov a ich implementácie v R.

Tu je môj starší a skomprimovaný prehľad LMwR “obohatený” o moje rôzne vhľady a popletené fantázie. Budem Vám samozrejme vďačný, za akúkoľvek spätnú väzbu. Odporúčam Vám zaobstarať si aj fyzickú kópiu knihy, druhé vydanie postačí.

Webstránka http://lukaslaffers.github.io/linreg1 bude obsahovať všetky relevantné informácie týkajúce sa tohoto kurzu.

Skúška

7.1.2026 o 9:00 v F237

12.1.2026 o 9:00 v F237

Súbory

Slajdy: 1 2 3 4 5 6 7 8 9 10 11 všetky slajdy

R z prednášky: 1 2 3 4 5 6 7 8 9 10 11 všetky R súbory

R cvičenia (teoretické): 1 2 3 4 5 6 7 8 9 10 11 všetky riešenia

R cvičenia (praktické): 1 2 3 4 5 6 7 8 9 10 11 všetky riešenia

Domáce úlohy: 1 2 3 4 5 6

Misc:

Rozvrh

13 týždňov (16. september – 10. december, kalendárne týždne 38–50)

  • Utorok 13:50 – 15:25   F237   Cvičenia
  • Streda 15:25 – 17:40   F237   Prednáška/Cvičenie

Predpokladané vstupné znalosti:

Úvodný kurz do pravdepodobnosti a štatistiky, kde sú vysvetlené základné pojmy ako je náhodná premenná, stredná hodnota, variancia, korelácia alebo dôležité vety ako Zákon veľkých čísel alebo Centrálna limita nájdete tu https://lukaslaffers.github.io/pas1/.

Predpokladá sa akási familiarita s výpočtovým prostredím R. Praktický kurz so základným štatistickým balíkom nástrojov je tu https://lukaslaffers.github.io/pas2/.

Taktiež je užitočná znalosť lineárnej algebry, pojmy ako vektor, matica, hodnosť matice, vlastné čísla a vlastné vektory by nemali byť cudzie.

Odporúčaná literatúra

Povinná

Doplnková

  • [P] Ding, P. (2024). Linear model and extensions. arXiv preprint arXiv:2401.00649.https://arxiv.org/pdf/2401.00649
  • [C] Crawley, M. J. Statistical modelling. The R Book, 2. vydanie (2007): 388–448.
  • [B] Berk, R. A. Statistical Learning from a Regression Perspective. Springer, 2008.
  • [G] Greene, W. H. Econometric Analysis (International edition). 2000.
  • [H] Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2009.
  • [CH] Claeskens, G., Hjort, N. L. Model Selection and Model Averaging. Cambridge UP, 2008.
  • [FHT] Friedman, J., Hastie, T., Tibshirani, R. The Elements of Statistical Learning. Springer, 2001. http://statweb.stanford.edu/~tibs/ElemStatLearn/
  • [WHT] James, G., Witten, D., Hastie, T., Tibshirani, R. An Introduction to Statistical Learning with Applications in R. Springer, 2013.

Osnova kurzu (odkazy v zátvorkách)

  • Téma 1
    Pravidlá, úvod, motivácia, základy prieskumovej analýzy dát a vizualizácie, súhrnné štatistiky
    [F: kap. 1, B: kap. 1–2, H]

  • Téma 2
    Odhadovanie – lineárny model, odhady, geometrická intuícia, príklady, výpočet bety, Gauss–Markovova veta s dôkazom
    [F: kap. 2]

  • Téma 3
    Štatistická inferencia – testy hypotéz, likelihood ratio test, F-rozdelenie, rozklad súčtu štvorcov, rôzne testy, permutačný test, intervaly spoľahlivosti, bootstrap intervaly
    [F: kap. 3, G: kap. 4–5]

  • Téma 4
    Predikcia vs. vysvetlenie – intervaly spoľahlivosti, kauzalita, experimentálne vs. observačné dáta, matching, kvalitatívne dôkazy kauzality, interpretácia
    [F: kap. 4–5]

  • Téma 5
    Diagnostika – predpoklady chýb: konštantná variancia, normalita, korelované chyby, neobvyklé pozorovania: leverage, odľahlé hodnoty, Cookova štatistika, parciálna regresia
    [F: kap. 6]

  • Téma 6 Kolinearita: faktor nafúknutia rozptylu (VIF), praktické problémy, chyby v prediktoroch, zmena mierky, GLS, testovanie nedostatočnej zhody, robustná regresia
    [F: kap. 7–8]

    • Téma 7 Problémy s chybami. Zovšeobecnený lineárny model, heteroskedasticita, robustné variatny regresie.
      [F: kap. 7–8]
  • Téma 8
    Transformácie – Box–Coxova transformácia, transformácia prediktorov, broken stick regresia, polynómy
    [F: kap. 9]

  • Téma 9
    Výber modelu – spätná eliminácia, AIC, BIC, konzistentnosť vs. efektívnosť, príklady
    [F: kap. 10, CH: kap. 2–4]

  • Téma 10
    Shrinkage – PCA, Ridge regresia, LASSO, krížová validácia
    [F: kap. 11, FHT: kap. 3–4, WHT]

  • Téma 11
    Kategorické prediktory – dvojúrovňový faktor, interakcie, viacúrovňové faktory, ANOVA, kódovanie kvalitatívnych prediktorov
    [F: kap. 14]

  • Téma 12
    Písomná skúška, zhrnutie, diskusia, Q&A, zhrnutie.

Cvičenia budú prevažne vychádzať z úloh na konci kapitol v [F].

Konzultačné hodiny

Podľa dohody. Ste srdečne vítaní (naozaj)!

Hodnotenie

  • 30 % – priebežné hodnotenie
  • 70 % – záverečná skúška