Project information
Harvesting big text data for under-resourced languages
(HaBiT)
- Project Identification
- 7F14047
- Project Period
- 6/2014 - 4/2017
- Investor / Pogramme / Project type
-
Ministry of Education, Youth and Sports of the CR
- Czech-Norwegian Research Programme (CZ09)
- MU Faculty or unit
- Faculty of Informatics
- Cooperating Organization
-
Norwegian University of Science and Technology
Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.
Publications
Total number of publications: 41
2016
-
Sketch Engine for Bilingual Lexicography
International Journal of Lexicography, year: 2016, volume: 29, edition: 3, DOI
-
VPS-GradeUp: Graded Decisions on Usage Patterns
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), year: 2016
2015
-
Annotation of Multi-Word Expressions in Czech Texts
Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
-
Corpus Based Extraction of Hypernyms in Terminological Thesaurus for Land Surveying Domain
Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
-
DEBWrite: Free Customizable Web-based Dictionary Writing System
Electronic lexicography in the 21st century: linking lexical data in the digital age, year: 2015
-
DIACRAN: a framework for diachronic analysis
Year: 2015, type: Conference abstract
-
Generating Czech Iambic Verse
Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
-
Increasing Coverage of Translation Memories with Linguistically Motivated Segment Combination Methods
Proceedings of The Workshop on Natural Language Processing for Translation Memories (NLP4TM), year: 2015
-
Interactive Visualizations of Corpus Data in Sketch Engine
Proceedings of the Workshop on Innovative Corpus Query and Visualization Tools at NODALIDA 2015, year: 2015
-
Longest-commonest Match
Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom., year: 2015