Searching for Significant Word Associations in Text Documents Using Genetic Algorithms

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

ŽIŽKA Jan ŠRÉDL Michal BOUREK Aleš

Rok publikování 2003
Druh Článek ve sborníku
Konference Computional Linguistics and Intelligent Text Processing
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova machine learning; text document processing; genetic algorithms; naive Bayes method
Popis The paper describes experiments that used Genetic Algorithms for looking for important word assocoations (phrases) in unstructured text documents obtained from the Internet in the area of a specialized medicine branch. Genetic alforithms can evolve sets of word associations with assigned significance weights from the document categorization point of view (relevant and irrelevant documents). The categorization is similarly reliable like the naive Bayes classification based on individual words. In addition, genetic algorithms provided phrases consisting of one, two, and three words. The phrases were quite meaningful from the human point of view.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info