PLIN019 Projekty jaro 2019

Tvorba paralelního korpusu z vybraného zdroje

Úkolem je zpracování zdrojového dokumentu (webové stránky, dokumenty) do podoby překladové paměti TMX, kterou lze importovat do nástroje Sketch Engine a vytvořit paralelní korpus.

Tvorba paralelního korpusu z PDF dokumentů ‒ návodů k výrobkům z webu lidl-shop.cz Minimálně 40 dokumentů v češtině, angličtině a španělštině.

Kvalitativní srovnání word embeddings a distribučního tezauru

Cílem je srovnat konkrétní model podobnosti slov vytvořený metodou word2vec a thesaurus dostupný v nástroji Sketch Engine. Relevantní informace viz bakalářská práce

Doplnění chybějících pojmů z knihy na Wikipedii

Student projde knihu nebo jiný vybraný zdroj a doplní z něj pojmy s krátkým popisem a odkazem na zdroj do anglické/české wikipedie.

Statistical Machine Translation od Philippa Koehna

Nový článek na Wikipedii

Cílem je najít téma, které není obsažené na české nebo anglické Wikipedii a vytvořit pro něj článek se stručným popisem, odkazy do literatury atd.

Vyhodnocení kvality strojového slovníku

Cílem je manuálně vyhodnotit několik různých statistických slovníků, které byly automaticky vytvořeny z paralelních korpusů. Jednak je možné srovnat více jazykových párů nebo jeden jazykový pár ale u slovníků vytvořených z různých paralelních korpusů. Hodnotit se bude přesnost i odhad pokrytí.

Analýza klíčových slov v článcích o MT za posledních 10 let

Cílem je analyzovat trendy a témata ve veřejně dostupných článcích z oblasti MT (například z arxiv.org)

Rešerše nástrojů na automatické zarovnání textů

Při vytváření paralelních korpusů se používá tzv. sentence alignment, kdy se text a jeho překlad segmentuje na věty a ty se pak automaticky napojí na sebe. Existuje celá řada automatických nástrojů, ale pouze několik s uživatelským rozhraním a možností ruční korekce zarovnání. Cílem je najít co nejvíce těchto nástrojů a srovnat / popsat je.

Experiment s granularitou paralelního korpusu a z něj vygenerovaného statistického slovníku

Cílem je vyzkoušet vygenerovat statistický slovník z paralelních dat a ten srovnat se slovníkem, který byl vygenerovaný ze stejných dat ale zarovnaných na menších jednotkách. Ručně by se zarovnané věty rozdělily na zarovnané fráze / jednoduché věty a sledovalo by se vylepšení kvality slovníku. Velikost trénovacích dat by samozřejmě byla malá.

Klasifikace chyb MT a konkrétní příklady

Úkolem je opatřit klasifikaci chyb (ze slajdů) konkrétními příklady. Ideálně získané z literatury nebo přímo online překladače, nebo alespoň vymyšlené (ale přirozené a věrohodné).

Adam Obrusník, HyPal Rešerše klasifikace chyb v literatuře Sepsat do dokumentu: k hierarchii doplnit příklady a odkazy do zdrojů Přidat na anglickou/českou Wikipedii do sekce Chyby strojového překladu / vytvořit samostatnou stránku