Monday, June 18, 2012

TF-IDF Gemsim Python

http://python.su/forum/topic/12911/lofi/

добрый день,

какие библиотеки лучше использовать, чтобы предложения на русском классифицировать по группам (шопинг, путешествия, еда…)

nltk подойдет для этих целей? Там норм поддержка русского? Или есть другие более удобные и простые?
plastun
Вы можете поступить проще.
Чтобы классифицировать текст, необходимо:
- представить каждый текст как множество слов. Для этого подойдет модуль re.
- удалить из этого множества стоп-лова - предлоги, союзы, частицы - т.е. то, что не несет тематической нагрузки.
- привести каждое слово к нормальной форме. Библиотека pymorphy (http://packages.python.org/pymorphy/)
- для каждого предложения выделить ключевые слова. Самый простой способ - использование статистической величины TF-IDF (http://ru.wikipedia.org/wiki/TF-IDF).
- классифицировать каждое предложение.

У nltk вроде есть проблемы с русским.
Для расчета статистических показателей текста подходит библиотека Gensim (http://pypi.python.org/pypi/gensim).
Сервисы, которые умеют определять тематику текстов:
http://www.ashmanov.com/tech/semantic
http://extheme.ru
lavrton

No comments:

Post a Comment