Thursday, January 19, 2012

Программы лингвистического анализа и обработки текста http://vallaam.livejournal.com/68186.html

http://vallaam.livejournal.com/68186.html




1. Лингвистические технологии и системы

Название, автор(ы)
Комментарий
AskNet Интелл Сервис
Семантические вопросно-ответные поисковые системы AskNet и инструментарий разработчика, реализующий полный лингвистический анализ текстов на русском и (или) английском языках. Модули лингвистического анализа включают в себя морфологию(словарную и бессловарную), синтаксиссемантику (включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Программные продукты представлены коробочными версиями корпоративнойсайтовой и персональнойпоисковой системы. Вопросно-ответный поиск по Интернету реализован на баземетапоисковой системы www.asknet.ru. Разрабатывается аналитическая поисковая система AQUA, позволяющая находить семантические ответы на основе автоматического обобщения системой текстовой информации и проведения логического вывода. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематическийморфологическийсинтаксический,семантический.
Russian Context Optimizer RCO
Комплекс программ для синтаксического и морфологического анализа русскоязычных текстов. Модули лингвистического анализа включают: морфологические словари, словари графем, синтаксические правила, семантический классификатор, словари синонимов. Инструментарий разработчика представлен модулями морфологического и фактографического анализа. Используется морфологический словарь объемом ~ 115000 лексем. Программы разработаны для Windows, Oracce, SDK работает на платформах Windows и Unix. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.
Ontos Ontos
Программные продукты предназначены для анализа текстовых документов, составления аннотаций, обработки данных (OntosMinerLightOntos for WorkgroupsOntos SOATAIS Ontos). Алгоритмы функционирования основаны на графематическом, морфологическом и семантическом анализе текстовой информации. Системы используют морфологические словари и семантические картриджи для основные языков (английского, немецкого, французского, русского). Обеспечивается выявление фактографической информации и представление ее в форме различного вида отчетов, в том числе в виде графа связей объектов. Тестирование системы показало, что семантический поиск таковым на самом деле не является, так как сводится к поиску по ключевым словам с использованием тематических синонимов. Программы реализованы на Java, .NET и используют Microsoft SQL Server. Уровни лингвистического анализа: графематический, морфологический, семантический – на уровне использования тематических синонимов.
Google Desktop Google
Программно-аппаратный комплекс Google Mini и программа Google Desktop для поиска информации на компьютерах корпоративной локальной сети и на компьютере пользователя соответственно. Реализует поиск по ключевым словам с учетом морфологии для основных языков (русского, английского и др.). Уровни лингвистического анализа: графематический, морфологический.
Яndex.Server Яндекс
Программа специализированного HTTP-сервера, позволяющая индексировать и обеспечивать поиском один или несколько интернет сайтов и (или) компьютеров пользователей. Поиск работает с учетом морфологии русского, английского и украинского языков. Результатом поиска является список документов, упорядоченных по релевантности или дате. Релевантность учитывает количество слов в документе, их частотные характеристики и расстояние между словами. Синтаксический и семантический анализ текстов не реализован. Версии программы реализованы для Windows и Unix.
Разработаны также Интернет сервисы поискового портала и персональная версия поисковой системы.
Уровни лингвистического анализа: графематический, морфологический.
Galaktika-ZOOMГалактика
Программа позволяет выявлять значимые слова и словосочетания документа, проводить поиск документов по вводимым пользователем ключевым словам с учетом их синонимов, а также формировать отчеты по частоте встречаемости слов в документах. Программа обеспечивает обработку русскоязычных текстов. Алгоритмы основаны на использовании морфологического и статистического анализа.
Уровни лингвистического анализа: графематический, морфологический.
Арион SyTech
Система обеспечивает автоматизацию аналитической обработки однотипной текстовой информации и представление отчетов в различном виде. Однако она не обеспечивает высокие показатели по достоверности выявления связей фактографической информации и наглядности их представления ввиду отсутствия реализации синтаксического и семантического анализа текстов. Программа требует большого объема ручного труда для настройки системы на новые прикладные области, а также ввиду отсутствия автоматического определения словоформ неизвестных системе слов. Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Она не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами.
Уровни лингвистического анализа: графематический, морфологический.
Кластеризующие поисковые системы
Метапоисковые системы с кластеризацией результатов поиска обеспечивают возможность выделения слов, часто встречающихся совместно со словами поискового запроса. Однако использование только кластерного анализа не дает существенных преимуществ метапоисковым системам данного типа. Улучшение качества поиска, особенно при обработке запросов на естественном языке возможно только на основе использования синтаксического и семантического анализа.
Уровни лингвистического анализа: графематический, морфологический.
Кластеризующие поисковые системы с визуализацией результатов поиска
Метапоисковые системы, которые представляют в графическом виде результаты поиска. Поиск проводится по нескольким поисковым системам. Результаты кластеризуются в основном по статистическим критериям. Для построения визуального кластера слов Quintura использует морфологический анализ. Синтаксический и семантический анализ не реализован. (Например, по запросу "моющий" Quintura включает в кластер слова "прекрасная няня", отождествляя омонимичные слова "моя" и слово запроса "моющий".

2. Утилиты лингвистического анализа текста (морфология, синтаксис)

Название, автор(ы)
Комментарий
Link Grammar Parser
John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA
Программа синтаксического анализа предложений английского языка Link Grammar Parser. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Результаты разбора представляются в виде последовательно выдаваемых программой деревьев лингвистического разбора (графы), упорядоченных по вероятности правильного разбора. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей (поиске наибольшего количества совпадений синтаксических связей, определяемых для каждого анализируемого слова). Словарь содержит ~ 60000 словарных форм, для каждой указаны типы возможных синтаксических связей. Семантические словари не используются. Программа реализована на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные коды и программа распространяется бесплатно.
Link Grammar Parser for Russian Сергей Протасов
On-line программа синтаксического анализа предложений русского языка. Создана по образу Link Grammar Parser. Алгоритм работы синтаксического анализатора основан на использовании разработанной грамматики связей для русского языка. Доступен для тестирования web интерфейс программы. Алгоритм работы синтаксического анализатора основан на использовании грамматики связей. Морфологический словарь используется от aot.ru. Программа реализована на unix C, Perl под лицензией Apache License. Программа и исходные коды распространяются на коммерческой основе.
АОТ (автоматическая обработка текста) Алексей Сокирко
Комплекс программ автоматической обработки текстов, включающий:
- морфологические словари для русского, немецкого и английского языков;
- модуль графематического анализа текста;
- синтаксические словари;
- модуль снятия омонимии;
- модуль первичного семантического анализа;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Часть модулей доступна для загрузки.
Mystem Илья Сегалович,
Виталий Титов (Яndex)
Программа морфологического анализа текстов на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Реализована на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Версия программы предназначена для некоммерческого использования.
LingSoft LingSoft
Программные модули графематического и морфологического анализа, лемматизации для текстов на английском, немецком, финском, датском, норвежском, шведском, и эстонском языке, а также распознавания речи. Программные модули могут быть использованы при разработке лингвистических систем.
Cíbola/Oleada Computing Research Laboratory
Проекты Cíbola/Oleada реализуют морфологический анализ на основе стемминга и машинной морфологии для мультиязычных текстов (MUTT) на ~ 16 языках, представленных в Unicode. Модули могут использоваться для статистического анализа текстов, автоматического перевода, различные словари и тезаурусы. Синтаксический и семантический анализ не реализован. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. Некоторые из них доступны для бесплатной загрузки после регистрации.
StarLing С.А.Старостин
Программа морфологического анализа слов русского и английского языков. СловариОжегова, Зализняка, Мюллера, Фасмера (этимологический) в виде СУБД StarLing. Работает с мультиязычными текстами, с транскрипционными знаками. Реализован поиск, анализ и синтез словоформ по словарю Зализняка, с переводом по словарю Мюллера, а также обеспечивается функция сравнительно-исторического исследования (глоттохронология). Для загрузки доступны DOS и Windows версии программы, словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков, а такжеморфологический анализатор, позволяющий получить для вводимого слова базовую форму и морфологическую информацию.
Russian Morphological Dictionary Sergey Sikorsky
Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с текстом в формате ASCII. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно в виде скомпилированной dll.
МедиаЛингваМедиаЛингва
Программные модули SDK представлены средствами автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. Продажи и дальнейшие разработки программных продуктов "Следопыт 3.0" и "Серверный Следопыт" в настоящее время прекращены.
ЛингвоанализаторД.В.Хмелев
On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее и взятых изресурсов Русской Фантастики. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.
MCR DLL v2.0 Dim
Морфологический модуль в виде dll библиотеки, позволяющий осуществлять лемматизацию и морфологический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки.
Синтаксический анализаторД.С.Ермолаев
От-line синтаксический анализатор естественного текста на русском языке. Программа находится в разработке. Версия программы показывает наличие множества "неизвестных" ей слов. Синтаксические связи определяются не для всех слов предложения.
Склонятель Сергей Слепов
Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Изменение по числам не предусмотрено. Программа написана на C# под .NET Framework 2.0.
Forson, a sentence generation tool Alfonso Tarantini
Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный или полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем.

3. Утилиты статистического анализа текста

Название, автор(ы)
Комментарий
TextAnalyst 2.0МикроСистемы
Программа построения семантической сети понятий, выделяемых из обрабатываемого текста, со ссылками на контекст. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Лингвистический анализ проводится в основном на основе стемминга. Морфологический анализ реализован для сравнительно небольшого количества слов. Из лингвистического анализа исключаются не только стоп-слова, но и все глаголы. При поиске не учитывается порядок слов. Синтаксический и семантический машинный анализ тестов не реализован.
SDK реализует функции лемматизации для русского и английского языков, построения частотных списков понятий, поиска слов в контексте. TextAnalyst Lib реализует создание гипертекстовых связей выявляемых понятий.
MonoConc / ParaConc
Michael Barlow
Dept of Linguistics, Rice University, Texas, USA
Программы построения конкордансов (в том числе мультиязычных) для одного или двух сравниваемых тестов. Реализованы возможности различных режимов поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги ошибочно включаются в состав конкорданса. Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников. Для построения параллельного конкорданса (для двух сравниваемых текстов) необходимо обеспечить их соответствие по структуре(параграфам, предложениям).
Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.
WordSmith Tools Mike Scott
Программы построения конкордансов. Функциональность аналогична MonoConc.
Лингвистические компоненты Андрей Коваленко
Программы вероятностного морфологического анализа - стеммера (с исходным кодом) и демо-версии морфологических анализаторов русского, украинского и английского языков представлены на авторской страничке разработчика компании "Ашманов и партнеры" А.Коваленко. Разработки использованы в ряде существующих информационно-поисковых систем - Апорт!, Рамблер, Мета, системе Пропись 4.0 и др.
netXtract Relevant Software Inc.
Плагин Microsoft Internet Explorer (версии 5.0 и выше), позволяющий "на лету" строить индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Версии программы: персональная (свободно распространяемая) и team edition (коммерческая).
Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service
Пакет DOS программ обработки текстов в формате ASCII, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. Имеется on-line версия пакета TACTWeb 1.0
Paai's text utilities Dr. J.J. Paijmans
Сборник утилит и Unix-скриптов для обработки текстов в ASCII кодировке для использования под Linux.
WordTabulator v2.2.3С.В.Логичев
Программа позволяет строить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Возможность поиска слов с использованием символов маскирования, с учетом русскоязычной морфологии. Обеспечивает контекстный просмотр результатов поиска в виде гипертекстового индекса, анализ двух текстовых корпусов на сходство или различие. Поддерживает основные кириллические кодировки в среде Windows 9x/NT/2000/XP.
Худломер Леонид Делицын
Программа автоматической классификации функционального стиля текста на основе спектров длин слов. Доступна on-line версия на JavaScript и исходные коды ранней версии на perl. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль.
Свежий взгляд / Fresh Eye
v.1.21, 1995
 Дмитрий Кирсанов
Утилита DOS, OS/2 реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без ограничений вместе с исходным текстом на C.
URS v. 1.1
от 05.04.2001

Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word для Win9x/NT/2000. Обеспечивает анализ и обработку пар словарных индексов как двух множеств, экспорт результатов в файл.
WordStatА.Г.Дубинский
Утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Обрабатывает основные русские кодировки, игнорирует html-разметку. Бесплатная.
Алгоритм сравнения текстов Владимир Чаплинский
Программа предназначена для поиска дубликатов текстов. Приведен алгоритм и исходный код программы (на FoxPro) сравнения двух текстов.
Textarc W. Bradford Paley, Digital Image Design Inc. 2002
Программа для визуализации и исследования текстов. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Частота встречаемости слова определяет яркость его отображения. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и звучат в разной тональности. Программа реализована как Java-апплет для браузера.
Ngram Statistics Package (NSP) Ted Pedersen 2000-2004
Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на Perl. Исходный текст распространяется на условиях GNU Copyleft.
ЛемматизаторМультитран Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик.
FRQDictW Александр Челмодеев
Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение.
Rhymes
Программа поиска рифм на основе словаря Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC.

1 comment:

  1. «Я достаточно хваляю г-на Бенджамина за его помощь в получении ссуды на покупку нашего нового дома для нашей семьи. У Бенджамина было огромное количество информации, и он помог мне и моей семье понять, почему жилищный заем был лучшим вариантом в нашей конкретной ситуации. После переговоров с Бенджамином и нашим финансовым консультантом все согласились, что жилищный кредит был идеальным решением. Если вы также ищете какой-либо кредит, вы можете связаться с г-ном Бенджамином по электронной почте / Whatsappemail: 247officedept@gmail.com Whatsapp: + 1-989- 394-3740

    ReplyDelete