Detail of the student project

List
Topic:Moderní regresní metody při dobývání znalostí z dat
Department:Katedra kybernetiky
Supervisor:
Announce as:DP
Description:Zadání je externí, zadavatel: Dr.Martin Holena,CSc. - Ústav informatiky AV ČR, Pod vodárenskou věží 2, Praha 8 (e:mail: martin@cs.cas.cz).

Garantem za katedru kybernetiky je: prof.RNDr.Olga Štěpánková,CSc. (e:mail: step@labe.felk.cvut.cz)

(Klíčová slova: NELINEÁRNÍ REGRESE, UMĚLÁ INTELIGENCE, REGRESNÍ STROMY, UMĚLÉ NEURONOVÉ SÍTĚ, JÁDROVÉ FUNKCE)

Regresní metody jsou metody prokládání funkcí z předem vymezených tříd empirickými daty. Proloženou funkci lze potom využít jednak ke studiu vztahů mezi jednotlivými proměnnými a zákonitostí, kterými se data řídí, jednak k predikci hodnot závisle proměnné v případech, k teré v datech nejsou zachyceny. Nejjednodušším typem regrese je regrese lineární, která se odedávna používala ve statistice, stejně jako i některé velmi jednoduché typy regrese nelineární, např. polynomiální regrese. Během posledních 20–30 let se však, díky růstu výkonnosti počítačů, velmi rychle rozvíjí mnohem důmyslnější typy nelineární regrese, např. regrese pomocí regresních stromů a regrese založená na umělých neuronových sítích či na jádrových funkcích. Tyto metody však již nejsou rozpracovávány v rámci statistiky, ale v rámci samostatných disciplin na pomezí matematiky a umělé inteligence. Důsledkem je nedostatek jednotících implementací většího počtu moderních regresních metod, a především velký nedostatek solidního porovnání těchto metod, které by ukazovalo výhody a nevýhody používání jednotlivých typů těchto metod pro různé druhy dat. Právě takové porovnání by mělo být cílem navrhované diplomové práce.
Instruction:Diplomant se nejdříve v rámci rešeršní práce důkladně seznámí s teoretickými základy i konkrétními algoritmy nejdůležitějších typů moderní nelineární regrese. Poté se v rámci výzkumného úkolu naučí pracovat s existujícími implementacemi některých těchto metod ve vývojovém prostředí Matlab, a tyto implementace doplní implementací několika dalších metod, které v prostředí Matlab dosud k dispozici nejsou. Diplomovou práci nakonec završí testováním všech metod na řadě mezinárodně používaných testovacích souborů a souborů dat z reálných aplikací.
Bibliography:(nikoliv ale povinná!)
•J. Anděl. Matematická statistika, kapitoly 1–6. SNTL, Praha, 1985.
•B. Schölkopf, A. Smola. Learning with Kernels, kapitoly 1–12. Cambridge, MIT Press, 2002.
•V.N. Vapnik. The nature of statistical learning theory. Springer-Verlag, Berlin, 1995.
Date:16.10.2009
Responsible person: Petr Pošík