Detail of the student project

List
Topic:Objevování zajímavých znalostí v datech pomocí genetických algoritmů
Department:Katedra kybernetiky
Supervisor:
Announce as:DP
Description:Zadání je externí, zadavatel: Dr.Martin Holena,CSc. - Ústav informatiky AV ČR, Pod vodárenskou věží 2, Praha 8 (e:mail: martin@cs.cas.cz).

Garantem za katedru kybernetiky je: Ing.Jiří Kubalík,Ph.D. (e:mail: kubalik@labe.felk.cvut.cz)

(Klíčová slova: GENETICKÉ ALGORITMY, DATA MINING, ZÍSKÁVÁNÍ PRAVIDEL Z DAT)

K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží v žádném běžném metrickém prostoru. K nejmodernějším metodám, které se pro optimalizaci na takových množinách používají, patří evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů. Právě využití genetických algoritmů k optimalizaci získávání pravidel z dat by mělo být náplní navrhované diplomové práce.
Instruction:Student se nejdříve důkladně seznámí s principy genetických algoritmů a zejména s jejich použitím při dobývání znalostí z dat. Současně si udělá celkový přehled o metodách získávání pravidel z dat a detailně se seznámí s některým ze systémů pro získávání znalostí z dat používaných při výuce dobývání znalostí z dat na českých vysokých školách (např. LISP-Miner, Ferda). V kontextu tohoto systému navrhne metodu optimalizace získávání pravidel z dat s využitím genetických algoritmů. Metodu implementuje pomocí systému Matlab a jeho Genetic Algorithm and Direct Search Toolbox.
Bibliography:•A.A. Freitas. Data Mining and Knowledge Discovery with Evolutionary Algorithms. Springer, Berlin, 2002.
•L. Geng, H.J. Hamilton. Choosing the Right Lens: Finding What is Interesting in Data Mining. In Quality Measures in Data Mining. Springer, Berlin, 2007.
•M. Holeňa. Získávání pravidel z dat. Statistika, 83: 48-60, 2003.
•C.R. Reeves, J.E. Rowe. Genetic Algorithms: Principles and Perspectives, Kluwer, Boston, 2003. Kapitoly 1–5.
Date:15.10.2009
Responsible person: Petr Pošík