Podrobnosti studentského projektu

Seznam
Téma:Automatická extrakce dat z výsledkových listin
Katedra:Katedra kybernetiky
Vedoucí:doc. RNDr. Daniel Průša, Ph.D.
Vypsáno jako:Bakalářská práce, Semestrální projekt
Popis:Cílem projektu je návrh a implementace metody pro automatickou extrakci údajů z výsledkových listin (např. pořadí, jméno, oddíl, dosažený výsledek), jejichž dva příklady jsou k nahlédnutí zde: https://cmp.felk.cvut.cz/~prusapa1/SP/vysl_listiny.pdf

Metoda bude využívat OCR SDK pro rozpoznávání znaků a slov. Výsledky OCR se budou dále zpracovávat, aby se vyextrahovaly požadované záznamy. OCR může rozpoznat některé znaky chybně (obzvláště u dokumentů nižší kvality). Navržená metoda se pokusí případné chyby odhalit a může je automaticky opravit a nebo pouze upozorní uživatele, že některé záznamy mají nízkou spolehlivost. Uživatel bude mít poté možnost takovéto záznamy zkontrolovat a opravit. Výstupem mohou být kromě záznamů i informace o konaném závodě, které jsou zpravidla uvedené na první straně výsledkové listiny. V tomto případě bude ale opět zapotřebí spolupráce uživatele, který uvedené textové informace projde a upraví.

Pro vývoj a testování metody bude k dispozici mnoho naskenovaných výsledkových listin ze závodů v běhu na lyžích konaných cca od roku 1970 do současnosti. Metoda však bude vyvíjena tak, aby se mohla snadno adaptovat na výsledkové listiny jiných závodů.

U projektu se předpokládá pokračování bakalářskou prací.
Literatura:[1] ABBYY OCR SDK - https://www.abbyy.com/ocr-sdk/
Za obsah zodpovídá: Petr Pošík