http://www.rvb.ru/soft/catalogue/index.html
Каталог лингвистических программ и ресурсов в Cети
Новые поступления в каталог помечаются отметкой New!, а обновления описаний отметкой Update!.
"Умершие" описания остаются в исходном тексте как комментарии, поэтому их не видно на экране, но при желании можно прочесть, загрузив страничку каталога в любой редактор.
"Умершие" описания остаются в исходном тексте как комментарии, поэтому их не видно на экране, но при желании можно прочесть, загрузив страничку каталога в любой редактор.
Составитель: Логичев Сергей Владимирович.
Программы анализа и лингвистической обработки текстов
Название | Автор(ы), Организация | Комментарий |
Link Grammar Parser | John Lafferty Daniel Sleator Davy Temperley Carnegi Melon University, USA | Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около 60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно. |
Проекты Cíbola/Oleada | Computing Research Laboratory (CLR) New-Mexico State University, USA | Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. |
Russian Morphological Dictionary | Sergey Sikorsky | Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно. |
Mystem | Илья Сегалович, Виталий Титов компания Яndex | Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов. |
Лингвоанализатор | Д.В.Хмелев | On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту. |
Программные продукты фирмы LingSoft | LingSoft, Финляндия | Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем. |
Система StarLing | С.А.Старостин | СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows). Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков. |
Морфологический анализатор | С.А.Старостин | On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.). |
MonoConc/ParaConc | Michael Barlow Dept of Linguistics, Rice University, Texas, USA | Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями. |
WordSmith Tools | © Mike Scott 2010 School of English, University of Liverpool | WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML. Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия. |
TextAnalyst 2.0 | Научно-производственный инновационный центр "МикроСистемы" | Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д. Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг. Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc. |
Galaktika-ZOOM | корпорация Галактика, Москва | Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации. |
Лингвистические компоненты, словари и библиотеки классов | Андрей Коваленко | Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов. |
netXtract | Relevant Software Inc. | Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию. |
Textual Analysis Computing Tools (TACT) | Library Electronic Text Resource Service Indiana University, USA | Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0 |
Paai's text utilities | Dr. J.J. Paijmans, Нидерланды | Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux. |
WordTabulator v2.2.3 | Логичев С.В., 1997-2004 | Программа анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Freeware! |
Худломер | Леонид Делицын | Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов. Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин. |
Свежий взгляд/Fresh Eye версия 1.21, 1995 | Дмитрий Кирсанов | DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимиюили "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2. |
URS версия 1.1 от 05.04.2001 | М.А.Бендерский, компания"НООЛаб", Новосибирск | Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл. |
WordStat | Дубинский А.Г., 2001 | Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку. |
Алгоритм сравнения текстов | Владимир Чаплинский | Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции. |
АОТ (автоматическая обработка текста) | Алексей Сокирко | Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов: - модуль графематического анализа текста; - компоненты морфологического анализа для русск., нем. и англ.яз.; - модуль автоматического уничтожения омонимии; - модуль семантического анализа текста; - система лингвистического поиска (конкорданс); - различные тезаурусы и словники. Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL. |
Технологии анализа и поиска текстовой информации | RCO | Сайт, на котором представлены разработки московской компании Russian Context Optimizer (info@rco.ru). Cреди представленных технологий: - анализ и классификация текстов, автоматическое реферирование; - полнотекстовый поиск для Oracle и SQL Server; - морфологичекий, синтаксический и семантический анализ текста; - средства навигации по большим массивам текстов; - научные публикации авторов проекта. |
Textarc | © W. Bradford Paley, Digital Image Design Inc. 2002 | Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера. |
MCR DLL v2.0 | Dim | Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware! |
Ngram Statistics Package (NSP) | Ted Pedersen © 2000-2004 | Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft. |
Лемматизатор Мультитран | Мультитран | Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm.zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик. |
FRQDictW.exe | Александр Челмодеев http://ichip.chat.ru fido: 2:5062/17.5 | Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение. |
Rhymes | Николай Кецарис © 2002-2003 | Замечательная программа поиска рифм на основе "Грамматического словаря" А.А.Зализняка. При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC. Freeware! |
Russian Link Grammar Parser | Сергей Протасов | On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix. |
Синтаксический анализатор естественного текста на русском языке | Ермолаев Дмитрий Сергеевич | Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей. |
Склонятель | Сергей Слепов | Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ - .NET, Win32, FreeBSD. |
Forson, a sentence generation tool | Alfonso Tarantini | Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем. |
LeoBilingua | Леонид Бродский | Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках). |
Инструментальные средства МедиаЛигва | © МедиаЛингва, Москва | Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации. |
Apache OpenNLP | The Apache Software Foundation, Incubator | OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM). |
Программы преобразования текстов
Название | Автор(ы), Организация | Комментарий |
HTML Batch Editor | © Lucersoft | Компактная утилита для Windows, позволяющая осуществлять пакетные преобразования массивов текстовых или html-файлов с помощью набора заданных шаблонов. Программа может быть бесплатно загружена с сайта. |
Словогрыз | Иван Сагалаев | Словогрыз - это бесплатная утилита для Windows, которая предназначена для поиска и замены текста по заданным маскам. Программа умеет находить и заменять в тексте не только строго заданные слова и фразы, но и текстовые элементы, определяемые произвольными поисковыми шаблонами. Позволяет сохранять/загружать сценарии преобразований. |
ClearText Reader's Edition | Дмитрий Грибов | Freeware программа для переформатирования текстовых или html-файлов (Windows). Позволяет осуществлять как вычистку разметки, так и ее добавление. Понятный графический интерфейс, автораспознавание кодировки. |
xReplacer | ©XDW Soft, 2000-2004 | Условно-бесплатная программа для Windows, позволяющая производить массовые операции поиска и замены в множестве текстовых файлов. В качестве поисковых шаблонов можно использовать регулярные выражения. Понимает до 12 различных кодировок, состав которых может быть расширен пользователем. |
xMarkup v2.1.1 | © Логичев С.В., 1999-2008 | Бесплатная программа, предназначенная для выполнения сколь угодно сложных преобразований над множеством текстовых файлов. Платформа: 32-bit Windows 9x/NT/2000/XP/2003. Позволяет анализировать, изменять, создавать и удалять заданные элементы обрабатываемых текстов. Поддерживает встроенный язык обработки в форме упрощенного диалекта языка Icon. |
Xchange Search&Replace | © SadMan Software, 2000-2006 | Xchange - это утилита для Windows, позволяющая осуществлять пакетные преобразования в множестве текстовых файлов. |
XML редакторы | Thijs van den Broek, 2004 | Описание раздичных программ (со ссылками) для редактирования XML-данных (на англ.языке). |
KDiff3 | Joachim Eibl | Бесплатная программа для Windows, позволяющая визуально сравнивать текстовые файлы. |
WinMerge | WinMerge project | Бесплатная программа для Windows, позволяющая визуально сравнивать текстовые файлы. |
TextTransformer v1.4.1 | © Dr. Detlef Meyer-Eltz, 2002-2008 | Мощная программа, предназначенная для выполнения сколь угодно сложных преобразований над множеством текстовых файлов. Платформа: 32-bit Windows. Позволяет анализировать, изменять, создавать и удалять заданные элементы обрабатываемых текстов. Описание сценария обработки текста осуществляется в синтаксисе C++. Фактически, конечная программа обработки реализуется как специализированный парсер исходного текста. В профессиональной версии есть возможность генерации исходного C++ кода для конкретного сценария обработки. |
Психолингвистические программы
Название | Автор(ы), Организация | Комментарий |
ПСИ-Офис версия 2.1 | Вадим Сысуев | Система психолингвистического анализа текстов, включающая 3 компоненты: - программа поиска вложенных слов в тексте, т.е. слов, "спрятанных" внутри и на переходах между словами. - программа поиска повторяющихся фрагментов текста при анализе "автоматического письма" (такие тексты пишутся с целью анализа текущих подсознательных процессов). - программа синтеза подсознательного компонента текста. Поддержка русского (словарь 690 тыс.слов) и английского (словарь 430 тыс.слов) языков. Возможность подключения дополнительных словарей. Работает в Windows 9x/2000/NT. Freeware. |
ВААЛ-2000 | Проект ВААЛ | Психолингвистическая экспертная система лексического и контент-анализа текстов. Основные задачи - прогноз эффекта неосознаваемого воздействия текста на массовую аудиторию, анализ текстов с точки зрения такого воздействия, генерация текста с заданным вектором воздействия, выявление личностно-психологических качеств автора текста. Система реализована в виде набора DLL-библиотек, которые подключаются к текстовому процессору Word для Windows. Успешно используется в ГосДуме, правительстве, крупных банках и PR-компаниях. Для бесплатной загрузки доступна облегченная версия системы ВААЛ-мини. |
ПРИЕМЫ ЖУРНАЛИСТИКИ & PUBLIC RELATIONS, версия 2.03, 2000 | Система "ТРИЗ-ШАНС", Санкт Петербург | Коммерческая программа, представляющая собой консультанта, помогающего Пользователю при написании различных текстов. Пользователь выбирает ряд параметров, характеризующих желаемый результат, а программа выдает ему рекомендации по написанию текста и иллюстрирует их примерами. В основе программы - анализ 12500 текстов мастеров русского языка, начиная от писателей-классиков и заканчивая современными журналистами и политиками. К сожалению в программе отсутствуют возможности анализа написанного Пользователем текста. Для загрузки доступна демо-версия, являющаяся облегченным вариантом профессиональной версии. Демо-версия также включает руководство пользователя и демонстрационный обучающий ролик. Программа требует для работы русские Windows 9x/2000/NT и Microsoft Word. |
Psyberia.ru | Вит Ценёв | Каталог компьютерных программ на сайте проекта "Продвинутая Пихология". Каталог включает следующие разделы: психологические тесты, психологические тренинги и игры, программы для наблюдения биоритмов, психолингвистические программы, психологические справочники и базы данных. |
Лаборатория ПСИТОН | © Psyton Inc., 2006 | Профессиональные психодиагностические программы для WINDOWS 9X/Ме/XP (коммерческие). |
Генераторы текстов
Название | Автор(ы), Организация | Комментарий |
Russian Word Constructor(RWC) версия 1.0, 1992 | Дмитрий Кирсанов | Экспериментальная программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"). Программа способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией. Несмотря на свою "древность", программа интересная и может позабавить своими словесными изобретениями. Прилагается утилита для создания авторских рабочих словарей. Распространяется бесплатно. Есть исходные тексты на языке C. Работает как консольное приложение MS-DOS. |
Дацюк(ТМ) Робот Сергей | © E}-|-{E, 1997-2002 | "Самый виртуальный Виртуал русского Интернета". On-line генератор "осмысленных" текстов заданной длины. Я бы назвал произведения робота шизофреническим бредом сексуально-философской направленности. Однако бывает весьма любопытно почитать. По стилю презентации проекта и его духу, он мне напоминает феерическую фантасмагорию в лучших традициях Станислава Лема. |
Scott Pakin's automatic complaint-letter generator | Scott Pakin | Всемирно известный генератор письменных жалоб Скотта Пейкина. Представляет собой on-line версию программы генерация текста жалобы на заданную персону или организацию. Использует для работы словарь лексической информации, который на сегодняшний день включает более 7000 элементов. Язык реализации - английский. |
A.L.I.C.E | Dr. Richard S. Wallace | A.L.I.C.E. - сокращение от Artificial Linguistic Internet Computer Entity (Искусственная Лингвистическая Интернет Компьютерная Сущность) - это сайт, посвященный разработке и продвижению в массы технологии AIML и говорящего робота (или бота) Alice, трижды выигрывшего поединок на приз Лобнера (Loebner prize). ALICE развивается как open-source проект под эгидой некоммерческой организации ALICE AI Foundation, зарегистрированной в США. В основе технологии, на которую опирается ALICE, лежит использование AIML (специализированного языка разметки для искусственного интеллекта). В разделе downloads доступен исходный код и различные имплементации программы. |
The Dada Engine | Andrew C. Bulha | Генератор случайных текстов на основе заданной грамматики (англ.яз.). Работает на UNIX-подобных системах, можно загрузить исходный код. На основе The Dada Engine реализована on-line версия Генератора Постмодернистских Текстов. |
Весна | Елена Савельевна Колмановская | On-line генератор псевдо-философских текстов, созданный главным редактором компании Яndex. |
BotSpot | © INT Media Group, 2001 | Исчерпывающий каталог всевозможных программных ботов, существующих во всемирной сети (англ.яз.). Есть даже ссылка на проект создания виртуальной личности Джона Леннона. |
ANANOVA | Ananova Limited United Kingdom | Новостное агенство в Великобритании, использующее на своем сайте виртуального анимированного диктора. Т.е. симпатичная виртуальная девушка, сверкая глазками и шевеля губками, синтезированным голосом рассказывает вам о последних новостях (естественно, на английском языке). |
Chatterbot Central | Simon Laven | Зоопарк ботов всевозможных мастей и видов. Здесь, похоже, собрана вообще вся информация о говорящих программах, существующих сегодня в сети. Начиная c классики (например, всемирно известной Элизы доктора Фейгенбаума) и кончая самыми последними разработками с использованием языка искусственно-интеллектуальной разметки (AIML). |
Аки Росс 1.0 | © Альберт Товмасян, 2002 | Интеллектуальная программа естественно-языкового общения на русском языке. Специальный plug-in позволяет использовать анимацию в виде очаровательной девушки-собеседника по имени Аки Росс (так звали героиню компьютерного мультика Final Fantasy). База знаний программы не столь обширная, но теоретически ее можно улучшать и дополнять (используется язык разметки AIML). Сайт разработчика программы "умер", поэтому ее можно найти только в архивах. |
Ainte-Генераторы текстов | Карандашев Ярослав | На авторском сайте "Ainte" представлена коллекция различных генераторов текста. |
Мистика | Webmedia.Ru © 2000-2004 | Робот-Оракул, порождающий тексты мистической тематики. |
Болтун | boltun@pisem.net.nospam | Болтун - это виртуальный собеседник, который обладает зачатками искусственного разума. Благодаря этому он может реагировать на реплику пользователя своей репликой. В общем, это freeware русский бот. Кроме Болтуна доступны для ознакомления и использования другие программы. |
Растрепанный Блокнот | © Инга Кесс | Коллекция программ-собеседников на сайте Растрепанный Блокнот. |
Системы обработки естественного языка и машинного перевода
Название | Автор(ы), Организация | Комментарий |
Natural Language Projects at ISI | © Univ.of Southern California/Information Science Inst., 1999-2001 | Описание группы проектов по вычислительной лингвистике и машинному переводу, выполняемых в Университете Южной Калифорнии. Webclopedia - проект, связанный с созданием информационных агентов, способных генерировать ответы пользователю на основе анализа разнородных коллекций ресурсов, доступных в сети. ONTOSAURUS - это онтологический тезаурус, включающий 90,000 концептуальных сущностей (словарная база взята из проекта WordNet). SUMMARIST - мультиязычная система реферирования текстовой информации. ReWrite - система двуязычного перевода, основанная на статистическом анализе пар текстовых корпусов. |
Автоматический словарь Мультитран | pom@aha.ru © 2001-2004 | Система автоматического перевода, поддерживающая русский, английский, немецкий, французский и испанский языки. Содержит более пяти миллионов терминов и предоставляет возможности алфавитного, морфологического и фразового поиска. |
Translate.Ru | ООО ПРОМТ © 2000-2004 | Портал on-line перевода компании ПРОМТ. Поддерживает русский, английский, немецкий, французский, итальянский и испанский языки. |
LEO | Department of Informatics, Technische Universitat, Munchen | Система англо-немецкого перевода и словарь, содержащий более 3300000 словарных статей. |
PEREVODOV.net | Ectaco © 1990-2004 | Система on-line перевода компании Ectaco, специализирующейся на разработке электронных карманных переводчиков. Поддерживает русский, немецкий и французский языки. |
Проекты НИИ ИИ | Российский НИИ Искуственного Интеллекта | Описан ряд проектов (Alex, AURA, InBASE, InDoc), реализующих технологии обработки естественного языка в задачах извлечения знаний, поиска, автоматического реферирования для массивов текстов. |
Computer Aided Translation | Google.com | Раздел Google, содержащий ссылки на различные системы машинного перевода. |
Google Переводчик | © 2008 Google | Сервис Google, предлагающий on-line перевод текста или Web-страничек. Поддерживает попарный перевод с 23 различных языков, включая все основные европейские языки и русский. |
Коллекции ресурсов
Название | Автор(ы), Организация | Комментарий |
Каталог программ по вычислительной лингвистике | SIL International (Summer Institute of Linguistics) | Обширный каталог программ по вычислительной лингвистике, разработанных в рамках проекта SIL. Представленные в каталоге программы носят явно академический характер и требуют значительных усилий для изучения и применения. Не рекомендуются неискушенным в академической лингвистике пользователям. Все программы, а их более 60, являются бесплатными и доступны для online загрузки. Есть исходные коды. |
Каталог программ по вычислительной лингвистике в сети Internet | SIL International | Очень обширная коллекция ссылок на программы чрезвычайно широкой лингвистической направленности в сети Internet. Для всех платформ. Но совсем нет программ, посвященных русскому языку. Представлены как бесплатные так и коммерческие программы. |
Ресурсы, связанные с анализом текстов | Matthias Romppel | Электронный каталог ресурсов, связанных с анализом текстов (на англ.языке). Библиографии, программное обеспечение, адреса исследовательских организаций, архивы электронных текстов и другое. |
Справочно-информационный портал "Русский язык" | © МО "ЭЛЕКС", 2000 | Замечательный ресурс для истинных любителей русской словесности, содержащий массу полезной иноформации. Также включает on-line словари русского языка: - Полный электронный орфографический словарь русского языка под ред. В.В. Лопатина. - Словарь трудностей произношения и ударения в современном русском языке. - Новый словарь русского языка. Толково-словообразовательный. - Русское словесное ударение. Словарь нарицательных имён. - Русское словесное ударение. Словарь имён собственных. На сайте опубликован исчерпывающий указатель ссылок на интернет-ресурсы, посвященные русскому языку и литературе. |
Text Analysis Info | © Harald Klein, Social Science Consulting, Germany | Text Analysis Info - это бесплатный информационный портал, посвященный анализу контента межчеловеческого общения (в основном текстов). Также представлены различные программы, предназначенные для обработки таких источников как аудио-, видео- или речевых данных. |
The Linguist List | Eastern Michigan University Wayne State University | Большой каталог программного обеспечения для различных областей компьютерной обработки текстов и лингвистики. |
LTI Projects | Language Technology Institute at Carnegie Mellon University | Каталог проектов, посвященных созданию систем машинного перевода, обработки речи, информационного поиска, извлечения знаний и других. |
Словари и тезаурусы
Название | Автор(ы), Организация | Комментарий |
ФЭБ словари | ФЭБ "Русская литература и фольклор" | Энциклопедии, словари и справочные пособия на сайте Фундаментальной Электронной Библиотеки (ФЭБ). |
Каталог сетевых ресурсов по русской филологии и фольклору | К.В. Вигурский, И.А.Пильщиков, К. Хокинс | Каталог ссылок на электронные библиотеки русской литературы и сетевые проекты, посвященные русской филологии и фольклору. |
Словарь В.Даля | On-line версия знаменитого словаря В.Даля "Толковый словарь живого великорусского языка". Оригинальный текст © В.И.Даль, 1880-1882. Адаптация к современному языку и издание © Изд. "Цитадель", г. Москва, 1998 г. | |
Словарь устаревших и диалектных слов | © Центральный Телеграф, 1998-2001 | Небольшой словарик устаревших слов русского языка на сервере Центрального телеграфа. |
On-line словари Издательского Дома "ЭТС" | © 1997-2000 ETS Publishing House | Коллекция on-line словарей: анатомический (латынь), уфологический, сокращений, иностранных слов, финско-русский, немецко-русский, англо-русский фразеологический и ряд других. Кроме этого на сайте представлены различные словари Polyglossum и языковые программы. |
Словари Ожегова и Зализняка | С.А.Старостин | On-line версии словарей Ожегова и Зализняка. |
Лексикон "Дар слова" | Эпштейн Михаил Наумович | Сетевой проект известного филолога, философа и культуролога Михаила Эпштейна, стартовавший в апреле 2000. Проект связан с изучением феномена однословия, т.е. слова как самоценной сущности. Представляет собой сетевой еженедельник, публикующий эссе по словобразованиям и неологизмам русского языка. Каждую неделю подписчикам высылается одно или несколько новых слов, с дефиницией, толкованиями и примерами употребления. Все публикуемые слова являются уникальными словообразованиями, которых не найти ни в одном словаре русского языка. |
Acronym Finder | Mountain Data Systems | Очень полный словарь акронимов и сокращений английского языка. Содержит более 173 тысячи элементов. |
Lexical FreeNet | Datamuse Corporation | Продвинутый on-line тезаурус английского языка. Может использоваться для любых мыслимых целей - решения кроссвордов, поиска синонимов, связанных слов, подбора рифм, орфографической проверки и т.д. |
WordNet | Cognitive Science Laboratory, Princeton University | WordNet - это электронный тезаурус, отражающий все возможные толкования слов английского языка, и показывающий взаимосвязи между ними. Для каждого слова можно найти синонимы, объединенные в смысловые группы и получить ссылки на родовые (более общие) или производные понятия. Ценный ресурс для филологов, занимающихся английским языком. Можно скачать локальные версии тезаураса для UNIX, DOS и Macintosh. |
The Wordsmyth Educational Dictionary-Thesaurus (WEDT) | Wordsmyth Collaboratory | Web-сайт, предлагающий on-line версию образовательного словаря-тезауруса английского языка. Содержит около 50 тысяч коренных слов. Удобные средства поиска. Пользователь может получить расклад интересующего слова по слогам, его произношение, список всех словоформ и толкование. |
Толковый словарь Merriam-Webster | Merriam-Webster Incorporated | On-line версия знаменитого толкового словаря английского языка. |
American Indian Language | © Customized Computer Software, 1999-2000 | На сайте представлены программы обучения разговорным языкам северно-американских индейцев племен лакота(сиу) и шошонов, а также компьютерный словарь языка лакота-сиу, содержащий 3300 слов с переводом на английский. Все программы бесплатные и сделаны для Windows 9x/NT. А здесь вы можете эти же ресурсы посмотреть и послушать on-line. |
Babylon.com | Babilon.com Ltd. | Сайт, предоставляющий различные информационные услуги - мультиязычный перевод, словари и справочники, преобразование одних мер в другие и т.д. Пользователь получает доступ к ресурсам системы после установки на свою локальную машину интерфейса Babylon. Он может определять состав необходимых ему словарей, языковые настройки и режимы работы (в off-line или в on-line) и даже создавать свои собственные словари. Система Babylon имеет доступ к ресурсам таких известных провайдеров какBritannica.com, Dietwatch.com, и Accuweather.com. Плата за пользование не взимается! |
Atomica(GuruNet) | Atomica Corporation | Сайт, предоставляющий обширные информационные услуги, в том числе - различные энциклопедии, толковые словари, справочники и тезаурусы. Пользователь может обращаться за информацией непосредственно на сайт или через устанавливаемый на локальной машине интерфейс (загрузить). |
British National Corpus (BNC) | © 1995 Oxford University Press | Коллекция более чем 100 миллионов слов современного английского письменного и устного языка. BNC включает в себя более 4000 различных текстов, слова которых классифицированы и размечены с использованием стандарта Text Encoding Initiative (TEI). В режиме on-line поиска пользователь может найти примеры употребления как отдельных слов, так и выражений. Зарегистрированным подписчикам BNC предоставляются услуги специальной поисковой машины SARA. |
Bibliomania | Bibliomania.com Ltd | Публичная Интернет-библиотека, включающая в том числе классические справочные издания по английскому языку: - Roget's Thesaurus (тезаурус Роже), - Brewer's Phrase and Fable (фразеологический словарь Брюера), - Hobson Jobson (индо-англ. этимологический словарь), - Soule's Synonymes (словарь синонимов Шуле), - Webster's Dictionary (словарь Вебстера, изд. 1913 г.) |
Электронные словари MediaLingua для ПК | © МедиаЛингва | Электронные словари от компании MediaLingua для настольных ПК |
Электронные словари MediaLingua для КПК | © МедиаЛингва | Электронные словари от компании MediaLingua для карманных ПК |
Словарь Мультилекс® 5.0 | © МедиаЛингва, 1995-2006 | Линейка электронных мультиязычных словарей Мультилекс с возможностью on-line поиска. |
ABBYY Lingvo 11 | © ABBYY Software House, 1996-2006 | Система мультиязычных электронных словарей широкой тематики для Windows. Есть возможность on-line поиска. |
Электронные словари ПРОМТ | © ЗАО "ПРОект МТ", 1997-2006 | Каталог программных продуктов и коллекция различных электронных словарей (англ., немецкий, франц., русск.) на любую тему. Все словари коммерческие. |
Словарь сокращений русского языка | © Студия Артемия Лебедева, 2000—2001 | On-line словарь сокращений русского языка, включающий на сегодня более 53000 статей. При создании ресурса были использованы следующие издания: - "Словарь сокращений русского языка" (1984); - "Новый словарь сокращений русского языка" (1995); - "Новые сокращения в русском языке 1996—1999" (1999). |
Русский гиперсловарь Ариадна | Пацкин А.И. | Гиперсловарь "Ариадна" - проект создания универсальной среды для систем автоматической обработки русского текста. Основная работа проделана осенью 2001 года Пацкиным А.И. По форме гиперсловарь является базой данных Абриаль, включающей грамматическую компоненту на основе словаря А.А. Зализняка, позволяющую получать склонения и спряжения слов, и морфологическую компоненту. Программу работы со словарем можно скачать для локального использования отсюда. |
Санскрит | Максим Мейстер | Бесплатная обучающая программа, позволяющая узнать азы санскрита - священного языка индийских брахманов. Совершенно не требовательна к аппаратуре и должна работать на любой Intel PC. Здесь же выложены шрифты для санскрита. |
Словари и энциклопедии для карманного ПК | www.epoc.nm.ru | Ряд словарей и энциклопедий в формате для карманного ПК. |
Русские словари | Институт Русского Языка им. В. В. Виноградова Российской Академии Наук и издательство "АЗБУКОВНИК" | on-line словари русского языка: - Толковый словарь русского языка С. И. Ожегова и Н. Ю. Шведовой, - Русский орфографический словарь, - Популярный словарь иностранных слов, - Словарь иностранных слов, - Русский семантический словарь, - Словарь языка Пушкина, - Словарь русских синонимов и сходных по смыслу выражений, - Словарь русского арго, - Словарь русских личных имен, - Словарь языка Достоевского. |
Словари на RIN.ru | Российская Информационная Система | Коллекция on-line словарей, в том числе толковых, энциклопедических, языковых. |
Словарь русского языка системы ASIS | Тришин В.Н. | Электронный словарь русского языка, содержащий более 280 тысяч слов. Для большей части словарных единиц приводятся синонимы и слова, близкие по смыслу. Словарь может быть свободно загружен. Предназначен для работы в Windows 9x/2000. |
БОКР (Большой Корпус русского языка) | С.А.Шаров, 2002 | Проект по созданию представительного корпуса русского языка, который содержал бы примеры различных речевых жанров и типов текстов, используемых в русском языке в настоящее время. Предполагаемый объем корпуса 100 млн. слов. |
Национальный корпус русского языка | Национальный корпус русского языка, 2003-2006 | Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме объемом 120 млн. слов. On-line поиск по корпусу реализован с помощью технологии Яндекс.Server. |
Glossary Commander | МБА «Вэб-Миссия» | Служба тематических толковых словарей Глоссарий. Содержит большое количество толковых специализированных словарей. |
CRECLECO | Patrick Seriot | Электронная библиотека русскоязычных текстов по языкознанию периода 20-30 годов XX века. Автор является профессором славянского языкознания в Лозаннском Университете, Швейцария |
canoo-net | Canoo Technology AG, © 2000-2002 | Немецкие словари: морфологический, орфографический, склонений и словобразований. |
Этимологический словарь англ.языка | Douglas Harper, © 2001 | Электронная версия этимологического словаря английского языка. При составлении словаря автор использовал различные авторитетные источники, такие как "An Etymological Dictionary of Modern English", "Oxford English Dictionary" и многие другие. |
Говорим по-русски | Арнольд | Архивы форума "Говорим по-русски". Также представлены ссылки на словари и другие ресурсы, интересные знатокам русского языка. |
Электронные словари КОНТЕКСТ | ООО «Информатик», 1989-2007 | Cистема профессиональных электронных мультиязычных словарей различной тематики. Есть возможность on-line поискаhttp://www.dics.ru/online/ |
Яндекс.Словари | Яндекс, 2001-2006 | Постоянно пополняющаяся коллекция on-line словарей от Яндекс. |
Поисковые машины и системы полнотекстового поиска
Название | Автор(ы), Организация | Комментарий |
Серверный Следопыт | МедиаЛингва | Серверный Следопыт – это высокопроизводительная система полнотекстового поиска информации по содержимому сайта. Позволяет осуществлять нечеткий и смысловой поиск документов на русском и/или английском языках. Для каждого найденного документа генерируется содержательная аннотация. |
ARM Engine 4.0 | © ABBYY Software House, 2001 | ABBYY Retrieval & Morphology (ARM) Engine - это коммерческая инструментальная система, позволяющая встраивать в разрабатываемые приложения функции полнотекстового поиска и морфологического анализа текстов. Поддерживает практически все европейские языки, включая русский. Реализована в виде API с использованием технологии COM-объектов. Демо-версию можно получить бесплатно. |
NeurOK Semantic Suite | © НейрОК Интелсофт, 2002 | Программные продукты для поиска и анализа в текстовых массивах информации, реализованные с использованием технологии нейтронных сетей. Серьезные цены, соответственно серьезности самих продуктов. |
Поисковые системы Яndex | Яндекс © 1997-2004 | Набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского и английского языков от компании Яндекс. Яndex.Server, Яndex.Publisher и Яndex.SDK. |
Convera Retrierval Ware | Convera Technologies | Мощная поисковая система, обеспечивающая поиск и анализ информации в больших массивах текстовых данных с использованием запросов на естественном языке. Поддерживает все основные европейские и русский языки. |
Поисковая система Ищейка | iSleuthHound Technologies, © 1999-2003 | Система, позволяющая организовать полнотекстовый поиск на Вашем персональном компьютере. Обрабатывает документы в формате обычного текста, MS Word и HTML. Ищейка использует мощный язык запросов и позволяет находить слова во всех формах и падежах. Рабочие языки - русский и английский. Для загрузки доступна freeware версия с некоторыми ограничениями. |
Verity Ultraseek | Verity Inc. | Мощный поисковый движок для полнотекстового поиска. Поддерживает использование морфологии для практически всех европейских языков. |
Quintura Search | © Quintura Inc., 2005-2006 | Персональная система полнотекстового поиска в сети Интернет. Поддерживает русский язык, производит кластернизацию результатов поиска и их визуализацию в виде семантической сети. |
Яндекс desktop | Яндекс, 2005-2006 | Персональная система полнотекстового поиска Яндекс на локальном компьютере. |
Nigma.ru | МГУ им.М.В.Ломоносова, факультеты ВМиК и психологии, 2006 | Интеллектуальная поисковая система Nigma, позволяющая производить поиск по более чем миллиарду русскоязычных документов в глобальном Интернете. Особенностью системы является способность кластеризации полученных результатов по рубрикам. Это значительно облегчает и ускоряет поиск нужной информации. |
Локальная поисковая система | Solarix Intellectronix, 2005 | Программы, предназначенные для организации локальной поисковой системы с поддержкой морфологии и синтаксиса русского, английского, французского, испанского языков. |
Интеллектуальный партнер руководителя | Интеллектуальный партнер, Минск | Программа "Интеллектуальный партнер руководителя" (прежнее название "Рабочий стол аналитика") предназначена для полнотекстового семантического анализа документов на русском языке и извлечения из них знаний (прецедентов, примеров, фактов, решений и прогнозов), интересующих пользователя. При поиске используется семантическая сеть понятий, которая может редактироваться пользователем. Наиболее точные и неожиданные в своей божественной мудрости результаты получаются при поиске по деловой и экономической информации. На сайте представлены другие интересные программы и теоретические работы авторов в области семанического анализа данных. |
SearchInform | Компания "СОФТИНФОРМ" | SearchInform Server Поисковый сервер, позволяющий организовать полнотекстовый поиск информации в пределах корпоративной сети. SearchInform Desktop Инструмент для поиска информации на Вашем компьютере. Поддержка огромного количества форматов файлов и индексация сообщений почтовых клиентов и клиентов для мгновенного обмена сообщениями. OEM - SearchInform SDK/API Полнофункциональный инструмент для решения проблемы поиска для сторонних разработчиков. API легко интегрируется в любые приложения и позволяет организовать поиск по любым источникам данных. |
Системы синтеза и распознавания речи
Название | Автор(ы), Организация | Комментарий |
Sakrament Text-to-Speech Engine v2.0 | © компания "Сакрамент", 2002 | Система синтеза русской речи, созданная минской компанией "Сакрамент". Система польностью соответствует стандарту Microsoft Speech API (SAPI) 5.1. Позволяет произносить тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи. |
CSLU Toolkit | © Center for Spoken Language Understanding, 1992-2002 | Набор инструментальных средств для создания приложений, обрабатывающих речевую и звуковую информацию. Синтез и распознавание речи, озвучивание текстов, обработка спектрограмм и звуковых сигналов. Включает графические компоненты и IDE. Свободный доступ для использования в исследовательских целях. Платформа: Windows 9x/NT/2000/Me/XP. |
CMU Artificial Intelligence Repository | © Carnegie Mellon University, School of Computer Science | Свободно доступный репозитарий программ и ресурсов, посвященный распознаванию и синтезу речи, машинному переводу, морфологическому анализу и другим лингвистическим задачам. |
Речевые программы на Websound.ru | © Александр Радзишевский, 1995-2003 | Страничка с описанием речевых программ для чтения текстов на русском и других языках. Возможность скачивания. |
Speech technology | Центр Речевых Технологий, С-Петербург | Программное обеспечение и инструментальные средства, связанные с анализом и распознаванием речи и обработкой звука. |
Fonix Speech | Fonix | Сайт компании Fonix, занимающейся разработкой систем распознавания речи и речевых технологий. |
Text-To-Speech Converter for MS Word | Exiton | Бесплатная программа, позволяющая озвучить текст, загруженный в окне MS Winword. Требует предустановки в системе речевой компоненты SAPI 5 (4), движка "текст-речь" и .Net Framework 2.0 |
Govorilka | © Anton Ryazanov, 1999-2006 | Небольшая программа чтения текста голосом для Windows. Настраивается на различные языки и голоса. Использует редактируемые словари произношений. Позволяет записать синтезированную речь в MP3-файл. Требует предустановки в системе речевого движка и компоненты SAPI. |
BookMania | © Sergey Shishmintzev, Kiev 2005-2006 | Простая программа, которая конвертирует обычный текст в MP3-файл. Качество синтезированной речи вполне приемлемое. |
Arabic Sweets in Dubai
ReplyDeleteArabic Sweets