Detail of the student project

List
Topic:Adaptace modelů strojového učení pro nová data
Department:Katedra kybernetiky
Supervisor:prof. Ing. RNDr. Martin Holeňa, CSc.
Announce as:Diplomová práce, Semestrální projekt
Description:Díky velké popularitě, kterou v posledních 5-10 letech zažívají hluboké neuronové sítě, se do širšího povědomí dostala i možnost adaptovat již naučenou síť pro data nepříliš odlišná od těch, na kterých se učila. Připomeňme si krátce, o co jde: Množství dat, potřebné pro generalizaci naučeného modelu na celou populaci řídící se stejným rozdělením pravděpodobnosti jako trénovací data roste u všech modelů strojového učení, včetně mělkých a hlubokých sítí, s počtem parametrů modelu. A protože hluboké neuronové sítě typicky mívají hodně velké množství parametrů, bývá pro jejich trénování zapotřebí ohromné množství dat. Pokud je ale síť již natrénovaná, potom k jejímu přetrénování pro generalizaci na populaci z rozdělení podobného tomu, pro které byla trénována původní síť, stačí mnohem menší množství dat. Dobře známým příkladem je strojový překlad pomocí neuronových sítí, jako používá např. Google. Takové sítě se trénují na dvojicích tzv. paralelních vět, tj. vět v obou jazycích, které si navzájem odpovídají jako překlady. Pro trénování sítí, které mají překládat mezi dvěma hodně používanými světovými jazyky, takových dvojic existuje velké množství, ale pro trénování sítí překládajících mezi málo používanými jazyky jich je k dispozici jen málo. Nicméně například síť natrénovanou pro překlad mezi němčinou a ruštinou lze i pomocí malého počtu dvojic paralelních vět adaptovat pro překlad mezi jiným germánským a jiným východoslovanským jazykem. Tuto schopnost adaptace lze vysvětlit tím, že při učení se v síti zakóduje znalost rozdělení pravděpodobnosti, které generovalo trénovací data. Tato znalost platí do značné míry i pro podobná rozdělení a ke korekci jejího zakódování do zakódování znalosti podobného rozdělení stačí mnohem méně dat. V této souvislosti se používají pojmy přenos znalostí (knowledge transfer) a učení přenosem (transfer learning). Ty se však netýkají jen hlubokých neuronových sítí, ale i dalších metod strojového učení, a souvisí nejenom s hlubokým supervizovaným učením, ale i s dalšími typy učení, konkrétně se semisupervizovaným učením a s aktivním učením.
Bibliography:viz http://www2.cs.cas.cz/~martin/diplomka54.html
Responsible person: Petr Pošík