Informační technologie a korpusová lingvistika (1)

Ročník VI - číslo 3, leden 1996
Citace: K. Pala. Informační technologie a korpusová lingvistika (1). Zpravodaj ÚVT MU. ISSN 1212-0901, 1996, roč. VI, č. 3, s. 8-11.
Tematické zařazení: Aplikace počítačů

předchozí článek | následující článek

Úvodem

Korpusová lingvistika je nové odvětví lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Teprve bouřlivý rozvoj osobních počítačů, pracovních stanic a počítačových sítí umožnil ukládat do počítačových pamětí rozsáhlé textové soubory, zpracovávat je a manipulovat s nimi podle zadaných kritérií. Existující softwarové nástroje umožňují třídit a klasifikovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy uchopitelný. To má ovšem značné metodologické důsledky: bez počítačů a informačních technologií bychom sotva mohli dospět k takovému typu poznání jazyka, jaké je dnes možné: nyní lze podrobně zkoumat v podstatě libovolné jazykové jevy a pokoušet se o jejich opravdu přesné a adekvátní generalizace, proti nimž byly dřívější popisy jazyka jen intuitivními (to ale nemusí znamenat, že vždy chybnými) aproximacemi. Hromadnost a velikost zpracovávaných dat vede ke kvalitativním změnám v metodologii takové empirické vědy, jíž je současná lingvistika. Počítače a informační technologie zásadně přiblížily lingvistům jejich předmět zkoumání - jazyková data.

Kdy vlastně vznikla korpusová lingvistika?

Na teoretické rovině to bylo nejspíše v 50. letech, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus - dostatečně velký soubor přirozeně se vyskytujících jazykových dat - je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.

Pak přišel Noam Chomsky s názorem, že korpusy jsou neadekvátní a vlastně nepotřebné, a naopak právě lingvistova intuice a introspekce je hlavním východiskem při tvoření gramatik, což se stalo ortodoxním stanoviskem následující lingvistické generace.

Korpusová lingvistika (KL) v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny - Computational Analysis of Present-Day American English, obsahující jen psané texty.

Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste - jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus - BNC obsahující 100 miliónů slov (Consortium Oxford University Press, Lancaster and Birmingham University) a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů (viz např. http://titania.cobuild.collins.co.uk/wordwatch.html).

Na tomto místě je ovšem potřeba konstatovat, že plný rozkvět KL nastává až v poslední době, a to právě díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru. Lze očekávat, že s rozvojem textových procesorů, strojově čitelných textů, slovníků, multimédií a počítačových sítí budou do konce století k dispozici korpusy čítající miliardy slovních forem (podle hesla čím větší data, tím kvalitnější).

Co je korpus?

V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů:

jazyková data jsou v korpusu uložena ve své přirozené kontextové podobě a užití, proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace,
velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít - třeba i náhodou - k převaze okrajových jevů nad základními a typickými,
velký rozsah dat v korpusu je podmínkou dostatečné reprezentativnosti, což např. při budování slovníků vůbec nemusí být jednoduchá záležitost:
Poznámka
Lze to ukázat na vztazích mezi pojmy: token (výskyt), typ a lemma. Token chápeme jako výskyt slovního tvaru v korpusu, typ - slovní tvar jako takový a lemma je základní tvar pro nějakou skupinu tvarů (např. nominativ u substantiv nebo infinitiv u sloves). Uveďme proporce těchto entit v BNC pro psaný jazyk:
tokens: 90 miliónů (v BNC je 10 mil. tvarů z mluveného jazyka)
typy: 524 060
- z toho typů s četností 1 je 258 575
- 2% typů pokrývá 90% výskytů (tokens)
lemmata:
proporce typ : lemma, např. v SOD (Student's Oxford Dictionary), činí pro angličtinu 2,5 : 1. Z uvedených údajů lze odvodit, že např. pro slovník, který by měl mít rozsah cca 250 tis. heslových slov, poskytuje BNC se svými 100 mil. slovních tvarů reprezentativní materiál jen pro cca 100 tis. heslových slov (vlastně lemmat).

Proč korpusy?

Lingvistika je empirická disciplína a je proto přirozené, že její výsledky jsou do značné míry závislé na tom, jaký má přístup k datům a v jaké podobě jsou data lingvistům k dispozici. Protože většina jazykových dat má podobu textů (psaných i písemně zachycených mluvených), je možnost mít je pohromadě v elektronické podobě klíčová pro další rozvoj lingvistiky vůbec. Korpusová lingvistika v současnosti představuje novou větev lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. To přirozeně znamená, že se v mnoha aspektech překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik. Výsledky získané těmito postupy brzy výrazně ovlivní nejen samu lingvistiku, v níž si jistě vynutí vznik nových, úplnějších a empiricky adekvátnějších gramatik (v knižní podobě), ale i počítačové zpracování přirozeného jazyka - už dnes se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovědě východiskem pro realistický základní výzkum ve formě relativně blízké přírodním vědám.

Není těžké vidět, že symbióza korpusové lingvistiky s počítačovou má i jasné metodologické důsledky: lingvista dnes může dělat věci, které byly dříve nepředstavitelné ať už pro svou časovou náročnost a pracnost (viz např. jednoduchý úkol setřídit manuálně třeba 250 tisíc slovníkových hesel) nebo skutečnou složitost (např. nalezení všech výskytů předložky na spolu se substantivem v akuzativu v textech o rozsahu 100 mil. slovních tvarů - spojení jako na stůl, na týden). Jedním z důsledků je i to, že lze více využívat statistických a pravděpodobnostních přístupů, které by na velkých souborech byly bez počítačů neaplikovatelné.

Korpusy nejsou určeny jen pro lingvisty - přirozený jazyk je prostředkem komunikace pro všechny: tento prostý fakt už leckde pochopili, konkrétně ve Velké Británii - vytvoření BNC přišlo zhruba na 1 400 000 liber, z čehož 60% pokryl příspěvek od Ministerstva obchodu a průmyslu. V tomto ohledu jde o jasně interdisciplinární záležitost, neboť korpusová data jsou použitelná pro odborníky v řadě disciplin:

sociology a sociolingvisty
psychology
odborníky v oblasti masové komunikace a médií (reklama)
lexikografy a lingvisty, překladatele (strojový překlad)
výzkumné pracovníky v oblasti umělé inteligence (porozumění v přirozeném jazyce, reprezentace znalostí, robotika aj.)
tvůrce učebnic a tzv. referenčních příruček (gramatiky, slovníky)

Jak se tvoří korpusy

Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený, u dosavadních korpusů v poměru 9:1, protože záznam mluveného jazyka (magnetofonová nahrávka) a jeho převod (manuální přepis) do počítačově čitelné podoby je zatím velmi nákladný (až 15krát dražší než u psaných textů). Situace se může zlepšit až s komerčními aplikacemi pro zpracování mluvené řeči.

Z psaných textů se data získávají prakticky třemi způsoby:

konverzí ze sázecích disket a pásek, které lze získat od většiny nakladatelství vydávajících noviny, časopisy a knihy,
užitím technik OCR, jejichž úspěšnost je do značné míry závislá na kvalitě použitého scanneru a programového vybavení a na typografické složitosti textu - typech a velikostech písem,
klasickým manuálním opisováním textů do počítače.

Ve všech případech je nutná kontrola, opravy chyb, ev. konverze. Výsledek se zpravidla ukládá do mezinárodního ASCII formátu - ovšem v případě češtiny je třeba mít k dispozici vhodné konverzní programy, protože čeština je kódována řadou způsobů (v kódech MJK, PCL2, KOI8, ISOL2 a asi šesti dalších ve Windows).

V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských práv a jejich uvolnění ze strany autora či vydavatele. Jednodušší bývá situace v případě nekomerčního využití, jinak je potřeba uzavírat vhodné typy smluv přesně stanovujících podmínky šíření korpusových dat a produktů, které na jejich základě vznikly. U mluvených záznamů je často potřeba zajistit zachování anonymity mluvčích.

Typy korpusů a standardizace

Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se setkáváme s následujícími typy uložení jazykových dat:

elektronické archivy - volné kolekce celkově různorodých textů. Klasickým příkladem je Oxford Text Archive - OTA, který představuje rozsáhlou sbírku různých, většinou literárních textů, v různých formátech a různých jazycích: v OTA najdeme asi tisícovku literárních textů v 25 jazycích a různých formátech,
vlastní korpusy tvořící relativně úplné celky, i tak ovšem značně různorodé a lišící se v řadě parametrů,
podle jazyků - dnes už jen málo jazyků v Evropě nemá svůj korpus, v r. 1990 existovaly korpusy pro:
- angličtinu (220 000 000 slovních tvarů, 20 korpusů)
- francouzštinu (190 000 000 slovních tvarů)
- němčinu (27 500 000 slovních tvarů)
- holandštinu (60 000 000 slovních tvarů)
- italštinu (30 000 000 slovních tvarů)
- srbochorvatštinu (12 000 000 slovních tvarů)
- korpusy dvoujazyčné, paralelní: anglicko-francouzské, -italské, -dánské
- korpusy obecné a specifické, velké obecné korpusy obsahují subkorpusy jazyka psaného, mluveného, nářečí, synchronní - diachronní aj.

S rostoucím počtem korpusů vzniká potřeba jejich standardizace a vícenásobného a sdíleného použití (jedna z důležitých podmínek v rámci EU). S tímto cílem vznikla Text Encoding Initiative - TEI sponzorovaná EU a americkou vládou: vydala již doporučení pro společný výměnný formát, zásady kódování, znakové sady a navrhla společný kódovací - značkovací metajazyk, jímž je Standard Generalized Markup Language - SGML, určitě známý některým uživatelům TeXu a od r. 1986 uznávaný jako mezinárodní standard (ISO 8879). Značný důraz se klade na polyfunkčnost a polyteoretičnost notace (nezávislost na dílčích teoriích), aby se v budoucnu nemusely dělat nákladné úpravy a změny.

Výběr dat pro korpus

Na příkladu BNC naznačíme jen zhruba základní vlastnosti, které je třeba uvážit při budování korpusu. Nebudeme se pouštět do podrobností, chceme poskytnout jen základní představu. Korpus typu BNC může vypadat zhruba takto:

je to výběrový korpus, tj. skládá se z vzorků ne delších než 40 000 slov, které jsou vybrány v následujících proporcích:

1.	přírodní vědy a čistá věda	.....	5%
2.	aplikované vědy	.....	5%
3.	sociální vědy	.....	15%
4.	politická publicistika	.....	15%
5.	publicistika obchodní a finanční	.....	10%
6.	publicistika umělecká	.....	10%
7.	publicistika náboženská a filosofická	.....	5%
8.	publicistika zábavná (sport, hudba, ...)	.....	15%

Podíl těchto textů se pohybuje v rozmezí 70-80%, podíl uměleckých textů činí 20-30%.
Další rozlišení se týká toho, zda vzorky pocházejí z knih, deníků, časopisů, dopisů apod.:

1.	knihy	.....	55-65%
2.	periodika	.....	20-30%
3.	brožury, letáčky, příručky, reklamy	.....	5-10%
4.	dopisy, memoranda, zprávy, eseje	.....	5-10%
5.	mluvené texty	.....	7-10%

je synchronní, tedy obsahuje výhradně texty ne starší než např. od r. 1987 a vždy se uvádí datum, kdy byl text publikován poprvé,
je obecný čili není specificky orientován na nějakou konkrétní oblast nebo žánr a zahrnuje vzorky od všech věkových skupin, viz výše,
je jednojazyčný - obsahuje jen vzorky pocházející od anglických (českých, ...) mluvčích,
jsou zavedeny klasifikační rysy, které nesledují vyhraněné proporce a jsou orientovány na pozdější využití korpusu (lze podle nich třídit a vyhledávat v celém korpusu):
1. identifikátor vzorku
2. rozsah vzorku (počet slov), začátek a konec vzorku
3. rozsah textu příslušného typu (počet slov)
4. kompozice textu (hladký, složený, sbírka)
5. standardní bibliografický odkaz
6. datum vzniku
7. předmětná oblast
8. úroveň složitosti textu
9. autorství (individuální, společné, institucionální, neznámé)
10. pohlaví autora
11. věková skupina autora
12. etnická skupina autora
13. autorovo bydliště
14. věk cílové skupiny (na kterou je text orientován)

Jakmile jsou příslušná jazyková data k dispozici, lze je ukládat do vlastního korpusu. Vedle potřebných konverzí a tzv. čištění od sázecích příkazů se data vstupující do korpusu zpracovávají analyzátorem SGML (SGML tagger), který v nich vyznačuje strukturu textu: identifikaci textového vzorku a údaje uvedené výše, titulky, záhlaví, typy písma, pokud mají komunikační význam, kapitoly, odstavce, věty. Tím se do ukládaných dat vnáší množství dalších informací (metastruktura textu), takže se lze setkat i s názorem, že SGML notace je příliš komplikovaná. Např. v největším korpusu angličtiny Bank of English (220 mil. slovních tvarů) se SGML neužívá, pracují s vlastní, jednodušší notací pro metastrukturu textu.

(... pokračování)

Zpět na začátek

ÚVT MU, poslední změna 14.11.2011