Project information
Harvesting big text data for under-resourced languages (HaBiT)

Information

This project doesn't include Institute of Computer Science. It includes Faculty of Informatics. Official project website can be found on muni.cz.

Project Identification

7F14047

Project Period

6/2014 - 4/2017

Investor / Pogramme / Project type

Ministry of Education, Youth and Sports of the CR

Czech-Norwegian Research Programme (CZ09)

MU Faculty or unit

Faculty of Informatics

Cooperating Organization

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publications

Total number of publications: 41

2016

Sketch Engine for Bilingual Lexicography

KOVÁŘ Vojtěch BAISA Vít JAKUBÍČEK Miloš

Article in Periodical

International Journal of Lexicography, year: 2016, volume: 29, edition: 3, DOI
VPS-GradeUp: Graded Decisions on Usage Patterns

BAISA Vít CINKOVA Silvie KREJČOVÁ Ema VERNEROVÁ Anna

Article in Proceedings

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), year: 2016

2015

Annotation of Multi-Word Expressions in Czech Texts

NEVĚŘILOVÁ Zuzana

Article in Proceedings

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
Corpus Based Extraction of Hypernyms in Terminological Thesaurus for Land Surveying Domain

BAISA Vít SUCHOMEL Vít

Article in Proceedings

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
DEBWrite: Free Customizable Web-based Dictionary Writing System

RAMBOUSEK Adam HORÁK Aleš

Article in Proceedings

Electronic lexicography in the 21st century: linking lexical data in the digital age, year: 2015
DIACRAN: a framework for diachronic analysis

KILGARRIFF Adam HERMAN Ondřej BUŠTA Jan KOVÁŘ Vojtěch JAKUBÍČEK Miloš

Conference abstract

Year: 2015, type: Conference abstract
Generating Czech Iambic Verse

PALA Karel NEVĚŘILOVÁ Zuzana

Article in Proceedings

Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, year: 2015
Increasing Coverage of Translation Memories with Linguistically Motivated Segment Combination Methods

MEDVEĎ Marek BAISA Vít HORÁK Aleš

Article in Proceedings

Proceedings of The Workshop on Natural Language Processing for Translation Memories (NLP4TM), year: 2015
Interactive Visualizations of Corpus Data in Sketch Engine

KOCINCOVÁ Lucia JAKUBÍČEK Miloš KOVÁŘ Vojtěch BAISA Vít

Article in Proceedings

Proceedings of the Workshop on Innovative Corpus Query and Visualization Tools at NODALIDA 2015, year: 2015
Longest-commonest Match

KILGARRIFF Adam BAISA Vít JAKUBÍČEK Miloš RYCHLÝ Pavel

Article in Proceedings

Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom., year: 2015