Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy

Osolsobě,  Klára

Korpus jako zdroj dat pro opravy chyb automatické morfologické analýzy

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Filozofickou fakultu. Oficiální stránka publikace je na webu muni.cz.

Autoři	OSOLSOBĚ Klára
Rok publikování	2007
Druh	Článek ve sborníku
Konference	Grammar & Corpora, 2nd International Conference, Abstracts
Fakulta / Pracoviště MU	Filozofická fakulta
Citace
Obor	Jazykověda
Klíčová slova	corpus; automatical morphological analysis; verb form; word class; gradation
Popis	Cílem našeho příspěvku je ukázat, jak mohou korpusová data přispět k doplnění popisů gramatických jevů zachycených ve slovnících a gramatikách na straně jedné a v lingvistických bázích automatických morfologických analyzátorů na straně druhé. Ke značkování řádově stamilionových korpusů se běžně používají automatické nástroje. V prostředí českých korpusů jsou to především dva analyzátory (taggery) pro morfologické značkování. Morfologický analyzátor Jana Hajiče dále HA (Hajič, 1995, 2004, http://ucnk.ff.cuni.cz/bonito/index.html) a morfologický analyzátor Radka Sedláčka Ajka (Sedláček, 2005, http://nlp.fi.muni.cz/projekty/wwwajka). Lingvistickou bázi těchto analyzátorů byly mluvnice a slovníky, o něž se opíraly algoritmické popisy flexe (Hajič 1995, Osolsobě, 1996). Při aplikaci na jazykový materiál korpusů se ukázalo, že celá řada interpretací, které byly přiřazeny jednotkám na úrovni strojových slovníků, se plně nekryje s bohatstvím přirozeného jazyka, jak je prezentuje korpus. Vyšlo najevo, že s ohledem na zkušenosti z konkrétní praxe, je třeba některé interpretace zpětně verifikovat. V našem příspěvku si všimneme tří jevů: 1) syntetické futurum, 2) stupňování adjektiv a adverbií a 3) slovnědruhové přechody vybraných slov.
Související projekty:	Čeština ve věku počítačů: Textové korpusy a lexikální i gramatická základna pro rozvoj češtiny v 21. století