Extracting Phrases from PDT 2.0

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Extrakce frází z PDT 2.0
Autoři

NĚMČÍK Václav

Rok publikování 2011
Druh Článek ve sborníku
Konference Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2011/paper11.pdf
Obor Informatika
Klíčová slova PDT; corpus; treebank; export; format; complex annotation; phrase; clause
Popis Pražský závislostní korpus (PDT) je velký soubor českých textů v elektronické podobě. Je celosvětově znám pro svůj velký rozsah a víceúrovňovou anotaci, která pokrývá celou řadu jazykovědných jevů. Na druhou stranu je ale možno složitost korpusových dat vnímat jako ne nevýznamnou překážku bránící jejich přímočarému využití. Jako možný způsob překonání tohoto problému nabízíme program, který převádí data z PDT do přehlednějšího formátu obsahujícího nejběžnější typy frází. Věříme, že dostupnost PDT v tomto formátu pomůže rozšířit okruh jeho uživatelů tohoto korpusu.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info