Thursday, October 4, 2012

Как разбить текст на предложения? http://chesser.ru/forum/viewtopic.php?p=1001

http://chesser.ru/forum/viewtopic.php?p=1001

Как разбить текст на предложения?
Ищется наиболее общее решение, подходящее по европейские языки.
Самое простое решение: сделать split по символам ('.', '!', '?') - не подходит, так как эти символы часто встречаются внутри предложения.
Оказывается эта проблема разложения текста по предложениям возникла не у одного меня и является серьезной задачей, называемой Sentence boundary disambiguation и относящаяся к NLP

Теория:
http://mailman.uib.no/public/corpora/2007-October/005429.html - подборка ресурсов по разбиению текста на преложения
стандарты Sentence Boundaries в Unicode
A Maximum Entropy Approach to Identifying Sentence Boundaries - статья о методе определения границ предложений, основанном на принципе максимальной энтропии
http://www.codeproject.com/KB/recipes/englishparsing.aspx
http://stackoverflow.com/questions/970487/parsing-text-into-sentences

Software:
http://www.lsi.upc.edu/~nlp/freeling/
http://opennlp.sourceforge.net/README.html
http://www.codeplex.com/sharpnlp

No comments:

Post a Comment