List

Diploma thesis:Extrakce příznaků pro analýzu dat genové exprese ( PDF )
Author:Anděl Michael
Supervisor:Ing. Jiří Kléma, Ph.D.
Keywords:
Abstract:Práce se zabývá metodami redukce dimenze rozsáhlých dat genové exprese. Zkoumány jsou především metody redukce dimenze založené na shlukování podobně exprimovaných genů, kdy jsou tisíce genů v původních datech nahrazeny řádově menším počtem genových shluků, tzv. metagenů. Jinými slovy, expresní profily původních genů jsou v redukovaném prostoru nahrazeny reprezentanty jednotlivých shluků. Práce tudíž zkoumá nejen konkrétní shlukovací algoritmy, ale také metody konstrukce reprezentantů jednotlivých shluků, jinými slovy způsoby výpočtu virtuálních expresí výsledných metagenů. Cílem práce je ověřit, nakolik takovýto způsob redukce dimenze ovlivní prediktivní přesnost klasifikátorů, a současně doporučit její optimální pracovní tok, tj. nejvýhodnější kombinaci základního předzpracování dat, shlukování genů a konstrukce příznaků ze shluků. Doplňkově jsou též zkoumány možnosti přímé extrakce příznaků metodami kernelové analýzy hlavních komponent. Byla realizována série numerických experimentů, přičemž jednotlivé pracovní toky byly hodnoceny predikční přesností klasifikátorů. Ukázalo se, že použití jednoduchých algoritmů shlukování nedává horší výsledky než použití sofistikovanějších algoritmů. Jako nejlepší metoda se vedle algoritmu k-means jeví hierarchické shlukování, které se vyrovná nejjednodušší konvenční metodě selekce příznaků. Proti hierarchickému shlukování však mluví jeho značná nestabilita. Co se týká přímé extrakce příznaků, pro danou doménu zůstává nejlepší klasická metoda analýzy hlavních komponent, tj. bez použití kernelu.
Submited:May 2012
More info: