Лаборатория цифровой документации русского языка

Заведующая лабораторией – к.ф.н. Бонч-Осмоловская Анастасия Александровна

Лаборатория основана в 2020 году при поддержке гранта Министерства науки и образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».


Цель лаборатории – создание компьютерно-лингвистической платформы нового поколения (которую мы для удобства будем называть Корпус 2.0), образующей основу национальной справочно-информационной системы по русскому языку. Такая система станет ключевым элементом исследовательской инфраструктуры в лингвистике и гуманитарных науках, ядром которой является Национальный корпус русского языка (НКРЯ), развивающийся с 2003 года как некоммерческое партнерство Института русского языка РАН и компании “Яндекс”.


Для того чтобы справиться со столь амбициозной задачей, был создан консорциум из пяти университетов - ИППИ РАН (головная организация), Институт русского языка РАН (ИРЯ РАН), Национальный исследовательский университет “Высшая школа экономики” (НИУ ВШЭ), Институт лингвистических исследований РАН (ИЛИ РАН), Воронежский государственный университет (ВГУ). Так как ИППИ является головной организацией консорциума, наша лаборатория занимается координацией работ, проводимых в остальных вузах.


Работы в рамках проекта группируются в три взаимосвязанных направления:

инфраструктурное, в котором будет создана программно-технологическая основа для

создаваемой компьютерно-лингвистической платформы, ресурсное, в котором будет происходить развитие и пополнение системы корпусов, образующих платформу, и научно-исследовательское, в котором созданная платформа будет апробирована в конкретных лингвистических исследованиях. Для продвижения в этих трех направлениях было сформировано 10 рабочих групп, каждая из которых занимается собственными задачами:

1) Группа архитектуры создает программно-аппаратный комплекс – модульную корпусную платформу нового поколения. Эта платформа должна обеспечивать современный набор средств поиска и статистического анализа для набора данных столь большого объема, как основной корпус Национального корпуса русского языка. Кроме этого, платформа должна предоставлять интерфейс для работы связанных с НКРЯ малых, специализированных и предметных корпусов, в том числе вновь создаваемых на платформе;

2) Группа интеграции разметки и данных ответственна за создание инструментов работы с разными разметками текстов, опирающихся на современные стандарты представления данных: поиск, конверсия, выгрузка, хранение;

3) Группа статистики и визуализации создает инструменты для статистического анализа данных, поиска словосочетаний на основании статистических метрик, визуализации лексического пространства подкорпусов;

4) Группа баланса отвечает за то, чтобы в течение ближайших двух лет был достигнут принципиально новый уровень сбалансированности основного корпуса Национального корпуса русского языка. Это подразумевает два основных аспекта: во-первых, собственно увеличение текстов Корпуса за счет масштабного пополнения коллекций, жанров и авторов XVIII, XIX и XXI веков (не менее 20 млн словоупотреблений) и газетного корпуса (не менее 120 млн словоупотреблений). Во-вторых, группа работает над включением в корпусную платформу больших данных современного русского языка (электронных СМИ, блогов), полученных и размеченных с помощью компьютерных лингвистических технологий (не менее 50 млн словоупотреблений);

5) Группа панхронического поиска отвечает за создание системы, позволяющей проводить поиск одновременно по всем подкорпусам Национального корпуса русского языка. Это подразумевает создание единообразной разметки и метаразметки текстов корпуса;

6) Группа специальных корпусов делится на отдельные коллективы, занимающиеся корпусами со специальной разметкой в составе Корпуса 2.0. Целью всех коллективов является существенное расширение размеченных коллекций корпусов со специальной разметкой:

  • завершение работы над поэтическим корпусом XIX-XX веков (5 млн словоупотреблений),

  • пополнение исторических корпусов (200 тыс. словоупотреблений),

  • пополнение параллельных корпусов (5 млн словоупотреблений),

  • пополнение синтаксически размеченного корпуса СинТагРус, включающего лексико-функциональную разметку (300 тыс. словоупотреблений);

7) Группа детского корпуса занимается разработкой и включением в корпусную платформу новой размеченной коллекции современной детской литературы, представленной в разных жанрах и содержащей не менее 1 млн словоупотреблений;

8) Группа датасетов, целью которой является публикация в открытом доступе эталонных размеченных коллекций и датасетов для машинного обучения и оценки алгоритмов автоматического анализа русского языка и технологий искусственного интеллекта (6 коллекций);

9) Экспериментальная группа занимается исследованиями на основе Корпуса или в сопряженных областях в формате экспериментов. В число исследований входит анализ грамматики и лексики русского языка в зонах вариативности, совмещающий нейролингвистические эксперименты и корпусные данные, полученные с помощью инструментов новой корпусной платформы;

10) Группа “РусГрам”, целью которой является завершение работы над теоретическим описанием русского языка с полным корпусным обследованием грамматических и синтаксических категорий, а также словоизменительной и словообразовательной морфонологии. Группой запланирована публикация этих результатов в виде отдельных статей и подготовленной к печати новой русской грамматики;

11) Группа Конструктикона и Микросинтаксиса состоит из двух коллективов. Первый занимается «Русским конструктиконом», второй - исследованием Малого синтаксиса русского языка. Результатами работы станут доведение до финальной версии базы данных по русским конструкциям «Русский конструктикон», а также исследование конструкций малого синтаксиса в сопоставлении с другими языками, с серией публикаций по этой тематике.


Результаты 1-3 относятся к инфраструктурному направлению, результаты 4-8 – к ресурсному направлению, результаты 9-11 – к научно-исследовательскому направлению.