Seznam |
Téma: | Automatická extrakce dat z výsledkových listin |
---|---|
Katedra: | Katedra kybernetiky |
Vedoucí: | doc. RNDr. Daniel Průša, Ph.D. |
Vypsáno jako: | Bakalářská práce, Semestrální projekt |
Popis: | Cílem projektu je návrh a implementace metody pro automatickou extrakci údajů z výsledkových listin (např. pořadí, jméno, oddíl, dosažený výsledek), jejichž dva příklady jsou k nahlédnutí zde: https://cmp.felk.cvut.cz/~prusapa1/SP/vysl_listiny.pdf
Metoda bude využívat OCR SDK pro rozpoznávání znaků a slov. Výsledky OCR se budou dále zpracovávat, aby se vyextrahovaly požadované záznamy. OCR může rozpoznat některé znaky chybně (obzvláště u dokumentů nižší kvality). Navržená metoda se pokusí případné chyby odhalit a může je automaticky opravit a nebo pouze upozorní uživatele, že některé záznamy mají nízkou spolehlivost. Uživatel bude mít poté možnost takovéto záznamy zkontrolovat a opravit. Výstupem mohou být kromě záznamů i informace o konaném závodě, které jsou zpravidla uvedené na první straně výsledkové listiny. V tomto případě bude ale opět zapotřebí spolupráce uživatele, který uvedené textové informace projde a upraví. Pro vývoj a testování metody bude k dispozici mnoho naskenovaných výsledkových listin ze závodů v běhu na lyžích konaných cca od roku 1970 do současnosti. Metoda však bude vyvíjena tak, aby se mohla snadno adaptovat na výsledkové listiny jiných závodů. U projektu se předpokládá pokračování bakalářskou prací. |
Literatura: | [1] ABBYY OCR SDK - https://www.abbyy.com/ocr-sdk/ |