- Popis kurzu
- Názory účastníků
- Cena a termíny

Rozhodovací stromy jsou jednou z nejpoužívanějších technik Data Miningu. Kurz Klasifikační a regresní stromy je určen těm, kteří se zajímají o klasifikaci dat (například Credit Scoring, kdy se na základě příznaků snažíme rozhodnout o zařazení vzorů do skupin) nebo se věnují regresním úlohám včetně predikcí časového vývoje. Kurz seznámí účastníky nejen s klasickými metodami, ale i s pokročilejšími stromovými strukturami jako jsou Boosting Trees nebo Random Forests. Součástí kurzu je také interaktivní tvorba vlastních stromů a jejich modifikace.
Cílová skupina
- Statistici, datoví specialisté či analytici, kteří potřebují řešit úlohu predikce kategorií či predikci nějaké spojité veličiny na základě dalších atributů.
- Klasifikační stromy jsou typickou metodou používanou v bankovnictví a pojišťovnictví.
- Nejtypičtější je využití v oblasti Credit Scoring.
Cíle kurzu
- Porozumět metodologii stromovitých algoritmů.
- Dokázat vytvořit a interpretovat model pro predikci.
- Dokázat si vyhodnotit, který model vybrat jako finální pro nasazení do procesu predikce.
- Naučit se analyzovat data těmito metodami v softwaru TIBCO Statistica.
- Seznámit se s prostředím Statistica Data Miner.
Osnova
Úvod
- Základní informace o softwaru TIBCO Statistica
- Výukové zdroje pro software a možnosti nápovědy
Příprava dat STATISTICA
- Načtení, transformace, vzorkování, filtrace odlehlých hodnot, oprava chybějících údajů, atd.
Výběr důležitých prediktorů pro požadovanou úlohu
Sdružování rozsáhlých skupin hodnot příznaků (Binning)
Klasifikační a regresní stromy
- Vytváření, princip, možnosti, využití
Metody
- Klasifikační a regresní stromy CART
- CHAID
- Generované stromy (Boosted Trees)
- Náhodné lesy (Random Forests)
- Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)
Vyhodnocení kvality vytvořeného modelu
- Korelační analýza
- ROC křivka
- Grafy zisku a navýšení (Gains a Lift Chart)
Nasazení modelu v praxi
Hierarchické shlukování a jeho souvislost s klasifikačními a regresními stromy
Základy práce v prostředí modulu Statistica Data Miner
- Práce s Recepty (wizardem)
- Práce v rámci pracovní plochy (Workspaces)
- Využití přednastavených úloh
- Implementace vlastních uzlů
Předpoklady účastníka
- Běžná obsluha počítače v prostředí Windows
Předchozí kurzy
Navazující kurzy
Pokud se chcete vzdělat také v dalších metodách, které mohou být alternativním řešením pro klasifikační a regresní stromy, pak doporučujeme kurzy:
Certifikace
- Účastník získá certifikát o absolvování kurzu
Délka kurzu
Pozn: Jednotlivé příklady v průběhu kurzu jsou procvičovány v anglické verzi softwaru Statistica.
Mgr. Martin Sebera, Ph.D., Katedra kineziologie, Fakulta sportovních studií, Masarykova univerzita
"Kurzy jsou na vysoké úrovni jak po stránce teoretické, tak i praktické. Přednášející nejen brilantně ovládá přednášenou problematiku, ale má praktické zkušenosti s řešením typických úloh, ve kterých lze využít rozmanitost přístupu regresních a klasifikacních stromů. Dále dokáže poradit s aplikací dalších dataminingových metod a postupu v řešení konkrétních úloh frekventantů kurzu."