Podrobnosti studentského projektu

Téma:	Automatická extrakce dat z výsledkových listin
Katedra:	Katedra kybernetiky
Vedoucí:	doc. RNDr. Daniel Průša, Ph.D.
Vypsáno jako:	Bakalářská práce, Semestrální projekt
Popis:	Cílem projektu je návrh a implementace metody pro automatickou extrakci údajů z výsledkových listin (např. pořadí, jméno, oddíl, dosažený výsledek), jejichž dva příklady jsou k nahlédnutí zde: https://cmp.felk.cvut.cz/~prusapa1/SP/vysl_listiny.pdf Metoda bude využívat OCR SDK pro rozpoznávání znaků a slov. Výsledky OCR se budou dále zpracovávat, aby se vyextrahovaly požadované záznamy. OCR může rozpoznat některé znaky chybně (obzvláště u dokumentů nižší kvality). Navržená metoda se pokusí případné chyby odhalit a může je automaticky opravit a nebo pouze upozorní uživatele, že některé záznamy mají nízkou spolehlivost. Uživatel bude mít poté možnost takovéto záznamy zkontrolovat a opravit. Výstupem mohou být kromě záznamů i informace o konaném závodě, které jsou zpravidla uvedené na první straně výsledkové listiny. V tomto případě bude ale opět zapotřebí spolupráce uživatele, který uvedené textové informace projde a upraví. Pro vývoj a testování metody bude k dispozici mnoho naskenovaných výsledkových listin ze závodů v běhu na lyžích konaných cca od roku 1970 do současnosti. Metoda však bude vyvíjena tak, aby se mohla snadno adaptovat na výsledkové listiny jiných závodů. U projektu se předpokládá pokračování bakalářskou prací.
Literatura:	[1] ABBYY OCR SDK - https://www.abbyy.com/ocr-sdk/

Za obsah zodpovídá: Petr Pošík