Detail of the student project

List
Topic:Hodnocení použitelnosti předpovědí různých regresních modelů
Department:Katedra kybernetiky
Supervisor:
Announce as:DP
Description:Zadání je externí, zadavatel: Dr.Martin Holena,CSc. - Ústav informatiky AV ČR, Pod vodárenskou věží 2, Praha 8 (e:mail: martin@cs.cas.cz).

Garantem za katedru kybernetiky je: prof.RNDr.Olga Štěpánková,CSc. (e:mail: step@labe.felk.cvut.cz)

(Klíčová slova: REGRESNÍ MODELY, PREDIKCE, SPOLEHLIVOST KLASIFIKACE A REGRESE, ANALÝZA CITLIVOSTI, KOMBINOVÁNÍ PŘEDPOVĚDÍ)

Regrese je spolu s klasifikací jednou z hlavních metod vyhodnocování dat. Regresní modely navíc hrají klíčovou roli při nejrůznějších předpovědích. Přesnost takových předpovědí vzrůstá se vzrůstajícím množstvím dat, na jejichž základě byl regresní model konstruován. Proto není divu, že od doby nástupu databází, tj. v průběhu posledních čtyř desetiletí, je věnováno velké úsilí rozvoji nových regresních modelů. K tradiční lineární a polynomiální regresi, které byly již po mnoho desetiletí rozvíjeny ve statistice, přibyly důležité nelineární regresní modely pocházející z oblasti strojového učení, zejména umělé neuronové sítě, rozhodovací stromy a regrese založená na jádrových funkcích. Různé regresní modely však mohou pro stejný vstup dávat i velmi odlišné předpovědi a v takovém případě je velmi žádoucí mít nějakou představu o tom, nakolik jsou jednotlivé z nich pro uvažovaný vstup použitelné. Jde o podobný problém jako když při klasifikaci přiřadí různé klasifikátory stejný vzor do různých tříd. V případě regrese má však tento problém i jeden zcela specifický rys, totiž otázku citlivosti regresního modelu na malé změny vstupů. Především díky neexistenci problému citlivosti na změny vstupů je hodnocení použitelnosti různých klasifikátorů snazší než hodnocení použitelnosti různých regresních modelů. Proto jsou metody hodnocení použitelnosti klasifikátorů pro uvažovaný vstup již po řadu let předmětem teoretického i aplikovaného výzkumu. Výzkum hodnocení použitelnosti předpovědí různých regresních modelů je naproti tomu teprve na samém začátku. Příspěvkem k němu by měla být i navrhovaná diplomová práce.
Instruction:Student se důkladně seznámí s existujícími metodami hodnocení použitelnosti různých regresních modelů pro uvažovaný vstup a v širším kontextu i s metodami hodnocení použitelnosti různých klasifikátorů. Metody hodnocení použitelnosti regresních modelů implementuje ve vývojovém prostředí Matlab a otestuje je na důležitých typech regresních modelů konstruovaných na základě shodných dat, která dostane od vedoucího práce. Výsledky teoretického studia těchto metod a jejich testování jednak shrne do závěrů o vhodnosti jednotlivých z nich pro jednotlivé typy regresních modelů, jednak je využije pro návrh modifikací jedné nebo dvou z těchto metod.
Bibliography:•Z. Bosnić, I. Kononenko. Comparison of approaches for estimating reliability of individual regression predictions. Data & Knowledge Engineering, 67 (2008) 504–516.
•Z. Bosnić, I. Kononenko. Estimation of individual prediction reliability using the local sensitivity analysis. Applied Intelligence, 29 (2008) 187–203.
•J.G. Carney, P. Cunnigham, U. Bhagwan. Confidence and prediction intervals for neural network ensembles. In IJCNN 1999, 1215–1218.
•G. Giacinto, F. Roli. Dynamic classifier selection based on multiple classifier behaviour. Pattern Recognition, 34 (2001) 1879–1881.
•M.Kukar, I. Kononenko. Reliable Classifications with Machine Learning. In ECML 2002, 219–231.
•V. Vovk. Asymptotic Optimality of Transductive Confidence Machine. In ATL 2002, 336–350.
Date:16.10.2009
Responsible person: Petr Pošík