КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ ГУМАНИТАРНЫМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационной системы РГНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер17-04-00594

НазваниеАвтоматический словарь РУСЛАН: обновленная концепция, новая лексика

РуководительСеменова Софья Юльевна, Кандидат филологических наук

Организация финансированияФедеральное государственное бюджетное учреждение науки Институт научной информации по общественным наукам Российской академии наук, г Москва

Года выполнения2017 - 2019

КонкурсОсновной конкурс 2017 года

Тип проектаа - проект проведения научных исследований, выполняемых научными коллективами или отдельными учеными

Область знания, код классификатора04 - ФИЛОЛОГИЧЕСКИЕ НАУКИ; ИСКУССТВОВЕДЕНИЕ, 04-120 - Языкознание

Ключевые словакомпьютерный семантический словарь, автоматическое понимание текста, представление семантической информации, статистические подходы в лексикографии

Код ГРНТИ16.31.21

Номер государственной регистрации12-201


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация Актуальность заявляемого проекта обусловлена необходимостью иметь методично структурированные и сбалансированные лексикографические системы для применения в различных задачах автоматического анализа текста (таких как семантический анализ той или иной меры глубины, сжатие текста, индексирование, извлечение знаний, оценка тональности и других). На рубеже 1990-х - 2000-х гг. среди других словарей для АОТ (как отечественных, так и зарубежных) одним из наиболее фундаментальных по структуре и метаязыку, по разносторонности лексикографической информации стал русский семантический словарь РУСЛАН, созданный под руководством Н.Н.Леонтьевой. Заявляемый проект направлен на обновление и развитие этого словаря. Словарь, к настоящему времени насчитывающий около 12000 входов, по своему содержанию (словнику, исчислению лексем, иллюстративному материалу) изначально был предназначен для обработки официальных документов РФ того периода. Затем его массивы были в определенной мере дополнены общелексическими данными. Словарь, построенный в соответствии с предложенной Н.Н. Леонтьевой информационно-лингвистической моделью (ИЛМ) текстового анализа, находил успешное применение в известных системах АОТ ПОЛИТекст и ДИАЛИНГ, проходил неоднократную апробацию в учебном процессе в МГУ и РГГУ. При значительной универсальности его формализмов, в настоящее время ощущается потребность в модернизации и расширении его контента, в применении современных подходов к его развитию. Основная цель настоящего проекта - возродить РУСЛАН, модернизировать его и на новом уровне вернуть в научный обиход. То есть, проект нацелен, с одной стороны, на сохранение и актуализацию системы, во многом аккумулировавшей лучшие традиции отечественной и мировой компьютерной лингвистики, с другой стороны, на апробацию на лексикографическом материале современных методов семантического и статистического анализа, и с третьей стороны, на получение сбалансированного словарного продукта для широкого круга интеллектуальных задач АОТ. Новизна проекта видится, в том числе, в применении лексикостатистического принципа (а также возможностей, предоставляемой корпусной лингвистикой) при анализе и расширении словарного материала высокой степени формализации. Работа над проектом предполагает серьезные гуманитарные исследования. Структурированные компьютерные словари были и остаются важным средством апробации для методов лексической семантики. Формат такого словаря заставляет исследователя представить значение и сочетаемость слов в объективном, формализованном виде, определить критерии отнесения материала к тем или иным дискретным категориям. В результате выполнения проекта обновленный, расширенный и сбалансированный (и по словнику, и по своей «правой части») РУСЛАН будет доступен в сети в виде новой действующей базы данных и подготовлен к бумажной публикации (в соавторстве с Н.Н. Леонтьевой и, видимо, под ее научным редактированием). Результаты работ по тематике проекта будут представлены в серии статей, в том числе в рецензируемых изданиях.

Ожидаемые результаты


 

ИНФОРМАЦИЯ ИЗ ИТОГОВОГО ОТЧЕТА


Краткая аннотация полученных результатов


 

ПУБЛИКАЦИИ ПО ИТОГАМ ПРОЕКТА


Тезисы доклада/выступления: Семенова С.Ю. , Об использовании данных Национального корпуса русского языка для иллюстрирования статей компьютерного семантического словаря, Труды международной конференции "Корпусная лингвистика - 2017", Санкт-Петербург, 2017, 321 - 324- Русский
Научная статья: Тер-Аванесова А.В. , Крылов С.А. , Текстовые базы данных по русским говорам, Захаров В. П. (отв. ред.). Труды международной конференции "Корпусная лингвистика-2017", Санкт-Петербургский государственный университет, Санкт-Петербург, 2017, 220 - 225- Русский
Научная статья: Семенова С.Ю. , О параметрическом имени "вероятность", Понятие веры в разных языках и культурах, Гнозис, Москва, 2017- Русский
Научная статья: Фролова О.Е. , Крылов С.А. , О корпусе официально-деловых текстов русского языка, Захаров В. П. (отв. ред.). Труды международной конференции "Корпусная лингвистика-2017", Санкт-Петербургский государственный университет, Санкт-Петербург, 2017, 226 - 230- Русский