Seznam |
Téma: | Segmentace textu pomocí EM algoritmu |
---|---|
Vedoucí: | Ing. Martin Urban Ph.D. |
Vypsáno jako: | Diplomová práce |
Popis: | Moderní OCR metody pro rozpoznávání textu jsou založeny na učících se algoritmech, které k naučení vyžadují rozsáhlé trénovací sady. Trénovací sady obsahují označené příklady vstupních dat. V případě rozpoznávání textu jde o označení polohy a třídy každého znaku v obraze, což je dosti pracné.
EM algoritmus se řadí mezi tzv. metody učení bez učitele a lze jej použít pro automatické značení trénovací sady. Algoritmus sám odhadne segmentaci řádku a optimální vzory jednotlivých znaků abecedy a to pouze na základě "přečteného" řetězce (tj. bez uvedení segmentace a etalonů daných znaků). |
Pokyny: | 1. Důkladně se seznamte s EM algoritmem
2. S přispěním vedoucího práce nastudujte způsob použití EM algoritmu pro segmentaci textu v úloze automatického značení trénovací sady. 3. Implementujte zmíněnou metodu (v Matlabu, C, ...) a její přesnost otestujte na poskytnutých datových sadách. |
Literatura: | Schlesinger, Hlavac. Deset p |
Realizace: | kod v Matlabu, C, ... |
Vypsáno dne: | 20.09.2007 |