- Popis kurzu
- Názory účastníků
- Cena a termíny

Kurz Data Mining je určen osobám, které chtějí odhalit informace a znalosti ukryté v datech. Cílem tohoto kurzu není ukázat jen vhodné postupy, ale také způsob, jak co nejlépe prezentovat výsledky. V průběhu kurzu budou prezentovány nejrůznější techniky: korelační analýza, regresní analýza, časové řady, klasifikační stromy, neuronové sítě a další. Na závěr budou ukázány konkrétní příklady z oblasti vytěžování dat. V průběhu celého kurzu budou účastníci pracovat s modulem Statistica Data Miner.
Cílová skupina
- Analytik, statistik či datový specialista, který potřebuje zpracovávat rychle velké objemy dat.
- Zájemce o problematiku Data Miningu (dolování informací z dat).
- Typickými posluchači mohou být analytici z oblasti bankovnictví, pojišťovnictví a také pokročilí analytici z oblasti průmyslu.
- Pracovníci, kteří se chtějí seznámit s modulem Data Miner v softwaru TIBCO Statistica.
Cíle kurzu
- Seznámit se teoreticky i prakticky s množstvím metod spadajících do oblasti Data Miningu.
- Mimo jiné se účastníci naučí sestavovat a interpretovat predikční modely. Vyhodnotit jejich kvalitu či vybrat, který z výsledných modelů je pro danou situaci nejvhodnější.
- Naučit se pracovat v několika unikátních prostředích TIBCO Statistica určených přímo pro Data Mining.
- Naučit se používat modul Data Miner.
Osnova
Úvod
- Základní informace o softwaru Statistica
- Výukové zdroje pro software a možnosti nápovědy
Úvod do vytěžování dat, produkt
- Princip, možnosti, využití
Práce s Recepty (wizardem)
- Příprava dat (načtení, výběr proměnných, transformace, vzorkování dat, odstranění duplicitních vzorů, filtrace odlehlých hodnot, oprava chybějících údajů)
- Detekce a případné odstranění podobných vstupních příznaků (prediktorů)
- Výběr důležitých prediktorů pro požadovanou úlohu
- Vytváření klasifikačních a regresních modelů
- Vyhodnocení kvality vytvořeného modelů
- Nasazení modelu v praxi
Klasifikační a regresní stromy
- Princip, možnosti, využití
- CART stromy
- CHAID stromy
- Vytváření klasifikačních a regresních stromů v interaktivním režimu (generování stromu, prořezávání stromu, výběr rozhodovacích proměnných, výběr mezí)
- Generované stromy (Boosted Trees)
- Náhodné lesy (Random Forests)
Lineární modely
- Princip regrese
- (Obecné) lineární modely
- Zobecněné lineární modely
- Zobecněné aditivní modely
- MARSplines
Metody shlukování
- K-průměrů (k-means)
- Hierarchické a EM shlukování
Automatizované neuronové sítě
- Princip umělých neuronových sítí, základní typy (MLP, RBF, Kohonenova síť)
- Automatizovaný a vlastní návrh sítě
Metody strojového učení
- Bayesův klasifikátor
- SVM
- k-NN klasifikátor
Analýza nezávislých komponent (ICA)
Text Mining
- Účel, princip a zdroje Text Miningu
- Vytvoření a práce s indexovým souborem
- Asociační pravidla a sekvence
Nasazení modelů na reálná data z praxe
Kvalita získaných modelů
- Korelační analýza
- ROC křivka
- Grafy zisku a navýšení (Gains/Lift Cart)
Metody výběru vhodných příznaků
Sdružování rozsáhlých skupin hodnot příznaků (Binning)
Základy práce v pracovní ploše (Workspaces)
- Práce s uzly
- Využití přednastavených úloh (zejména pro klasifikaci a regresi)
Předpoklady účastníka
- Běžná obsluha počítače v prostředí Windows
Předchozí kurzy
Doporučujeme absolvovat kurz:
Certifikace
- Účastník získá certifikát o absolvování kurzu
Délka kurzu
Pozn: Jednotlivé příklady v průběhu kurzu jsou procvičovány v anglické verzi softwaru Statistica.
Mgr. Vladimír Hofman, Státní zeměděský intervenční fond, Odbor kontrol na místě IACS a SOT
"Kurz byl přínosný. Naučil jsem se v něm ovládat jednotlivé přístupy k metodám Data miningu. Lektoři byli fundovaní."
Mgr. Marek Daniel, Ph.D., RWE Supply&Trading CZ, a.s.
"S kurzem Data mining jsem byl nadmíru spokojený. Probírané matematické metody byly velice zajímavé a lektor prokázal kromě svých odborných kvalit i výbornou schopnost je srozumitelným způsobem vysvětlit. Jednotlivá témata jsme si ukázali na příkladech a pracovali s nimi v programu Statistica. Je samozřejmě nutné mít k dispozici software odpovídající kvality, nicméně podle mého názoru byla orientace na Statisticu až příliš velká. Sám k ní přístup nemám a mnohem více bych ocenil materiály týkající se vlastního obsahu školení a nikoliv návody na používaní konkrétního softwaru."