КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ ГУМАНИТАРНЫМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационной системы РГНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер17-04-00594
НазваниеАвтоматический словарь РУСЛАН: обновленная концепция, новая лексика
РуководительСеменова Софья Юльевна, Кандидат филологических наук
Организация финансированияФедеральное государственное бюджетное учреждение науки Институт научной информации по общественным наукам Российской академии наук, г Москва
Года выполнения2017 - 2019
КонкурсОсновной конкурс 2017 года
Тип проектаа - проект проведения научных исследований, выполняемых научными коллективами или отдельными учеными
Область знания, код классификатора04 - ФИЛОЛОГИЧЕСКИЕ НАУКИ; ИСКУССТВОВЕДЕНИЕ, 04-120 - Языкознание
Ключевые словакомпьютерный семантический словарь, автоматическое понимание текста, представление семантической информации, статистические подходы в лексикографии
Код ГРНТИ16.31.21
Номер государственной регистрации12-201
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация Актуальность заявляемого проекта обусловлена необходимостью иметь методично структурированные и сбалансированные лексикографические системы для применения в различных задачах автоматического анализа текста (таких как семантический анализ той или иной меры глубины, сжатие текста, индексирование, извлечение знаний, оценка тональности и других). На рубеже 1990-х - 2000-х гг. среди других словарей для АОТ (как отечественных, так и зарубежных) одним из наиболее фундаментальных по структуре и метаязыку, по разносторонности лексикографической информации стал русский семантический словарь РУСЛАН, созданный под руководством Н.Н.Леонтьевой. Заявляемый проект направлен на обновление и развитие этого словаря. Словарь, к настоящему времени насчитывающий около 12000 входов, по своему содержанию (словнику, исчислению лексем, иллюстративному материалу) изначально был предназначен для обработки официальных документов РФ того периода. Затем его массивы были в определенной мере дополнены общелексическими данными. Словарь, построенный в соответствии с предложенной Н.Н. Леонтьевой информационно-лингвистической моделью (ИЛМ) текстового анализа, находил успешное применение в известных системах АОТ ПОЛИТекст и ДИАЛИНГ, проходил неоднократную апробацию в учебном процессе в МГУ и РГГУ. При значительной универсальности его формализмов, в настоящее время ощущается потребность в модернизации и расширении его контента, в применении современных подходов к его развитию. Основная цель настоящего проекта - возродить РУСЛАН, модернизировать его и на новом уровне вернуть в научный обиход. То есть, проект нацелен, с одной стороны, на сохранение и актуализацию системы, во многом аккумулировавшей лучшие традиции отечественной и мировой компьютерной лингвистики, с другой стороны, на апробацию на лексикографическом материале современных методов семантического и статистического анализа, и с третьей стороны, на получение сбалансированного словарного продукта для широкого круга интеллектуальных задач АОТ. Новизна проекта видится, в том числе, в применении лексикостатистического принципа (а также возможностей, предоставляемой корпусной лингвистикой) при анализе и расширении словарного материала высокой степени формализации. Работа над проектом предполагает серьезные гуманитарные исследования. Структурированные компьютерные словари были и остаются важным средством апробации для методов лексической семантики. Формат такого словаря заставляет исследователя представить значение и сочетаемость слов в объективном, формализованном виде, определить критерии отнесения материала к тем или иным дискретным категориям. В результате выполнения проекта обновленный, расширенный и сбалансированный (и по словнику, и по своей «правой части») РУСЛАН будет доступен в сети в виде новой действующей базы данных и подготовлен к бумажной публикации (в соавторстве с Н.Н. Леонтьевой и, видимо, под ее научным редактированием). Результаты работ по тематике проекта будут представлены в серии статей, в том числе в рецензируемых изданиях.
Ожидаемые результаты
ИНФОРМАЦИЯ ИЗ ИТОГОВОГО ОТЧЕТА
Краткая аннотация полученных результатов
ПУБЛИКАЦИИ ПО ИТОГАМ ПРОЕКТА