Software Framework for Topic Modelling with Large Corpora
Název česky | Softwarový framework pro tematickou podobnost ve velkých korpusech |
---|---|
Autoři | |
Rok publikování | 2010 |
Druh | Článek ve sborníku |
Konference | Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks |
Fakulta / Pracoviště MU | |
Citace | |
www | |
Obor | Počítačový hardware a software |
Klíčová slova | document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ |
Přiložené soubory | |
Popis | Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ. |
Související projekty: |