Software Framework for Topic Modelling with Large Corpora

Řehůřek,  Radim; Sojka,  Petr

Software Framework for Topic Modelling with Large Corpora

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Softwarový framework pro tematickou podobnost ve velkých korpusech
Autoři	ŘEHŮŘEK Radim SOJKA Petr
Rok publikování	2010
Druh	Článek ve sborníku
Konference	Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	gensim project homepage fulltext PDF poster workshop proceedings
Obor	Počítačový hardware a software
Klíčová slova	document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ
Přiložené soubory	lrec2010-rehurek-sojka.pdf
Popis	Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ.
Související projekty:	Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce Účast ČR v European Research Consortium for Informatics and Mathematics Podobnost matematických vzorců