Detail of the student project

List
Topic:Segmentace textu pomocí EM algoritmu
Department:Katedra kybernetiky
Supervisor:Ing. Martin Urban Ph.D.
Announce as:DP
Description:Moderní OCR metody pro rozpoznávání textu jsou založeny na učících se algoritmech, které k naučení vyžadují rozsáhlé trénovací sady. Trénovací sady obsahují označené příklady vstupních dat. V případě rozpoznávání textu jde o označení polohy a třídy každého znaku v obraze, což je dosti pracné.

EM algoritmus se řadí mezi tzv. metody učení bez učitele a lze jej použít pro
automatické značení trénovací sady. Algoritmus sám odhadne segmentaci řádku a
optimální vzory jednotlivých znaků abecedy a to pouze na základě "přečteného" řetězce (tj. bez uvedení segmentace a etalonů daných znaků).
Instruction:1. Důkladně se seznamte s EM algoritmem
2. S přispěním vedoucího práce nastudujte způsob použití EM algoritmu
pro segmentaci textu v úloze automatického značení trénovací sady.
3. Implementujte zmíněnou metodu (v Matlabu, C, ...) a její přesnost otestujte
na poskytnutých datových sadách.
Bibliography:Schlesinger, Hlavac. Deset p
Realization form:kod v Matlabu, C, ...
Date:20.09.2007
Responsible person: Petr Pošík