Detecting Co-Derivative Documents in Large Text Collections

Pomikálek,  Jan; Rychlý,  Pavel

Detecting Co-Derivative Documents in Large Text Collections

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Detekce blízkých dokumentů ve velkých textových kolekcích
Autoři	POMIKÁLEK Jan RYCHLÝ Pavel
Rok publikování	2008
Druh	Článek ve sborníku
Konference	Proceedings of the Sixth International Language Resources and Evaluation (LREC'08)
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	http://www.lrec-conf.org/lrec2008/
Obor	Informatika
Klíčová slova	Detecting; Large Text Collections
Popis	Analyzovali jsme algoritmus SPEX (Bernstein a Zobel, 2004) pro detekci blízkých dokumentů s použitím duplicitních n-gramů. Přestože zcela souhlasíme s tvrzením, že zanedbání unikátních n-gramů může vést ke značenému zvýšení efektivity a škálovatelnosti procesu detekce blízkých dokumentů, objevili jsme závažné nedostatky ve způsobu, kterým SPEX vyhledává duplicitní n-gramy. Paměťové nároky na výpočet blízkých dokumentů mohou být sníženy až na 1%, použijeme-li pouze duplicitní n-gramy, avšak SPEX potřebuje přibližně 40x více paměti pro výpočet samotného seznamu duplicitních n-gramů. Celkové paměťové nároky tedy nejsou dostatečně nízké na to, aby byl algoritmus prakticky použitelný pro velmi velké kolekce. Navrhli jsme řešení tohoto problému s použitím externího řazení s řazením v paměti pomocí sufixového pole a komprese dočasných souborů. Navržený algoritmus pro výpočet duplicitních n-gramů vyžaduje pevné množství paměti pro vstup libovolné velikosti.
Související projekty:	Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu Centrum komputační lingvistiky Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce