новости
21.01.2020. RuShiftEval - соревнования по автоматическому определению семантических изменений в русском языке
Предлагаем принять участие в соревновании, организованном коллегами из группы датасетов! Ниже прилагаем подробную информацию от организаторов:
Дорожка RuShiftEval организована для сравнения различных методов для определения семантических сдвигов в диахронических корпусах. В 2020м году с успехом прошли две аналогичные дорожки: SemEval Task 1 где использовались английские, немецкие, шведские и латинские корпуса [1] и DIACR-Ita на материале итальянского языка [2]. RuShiftEval - это первое соревнование такого рода для русского. Оно проходит в 2021 году на платформе Codalab: https://competitions.codalab.org/competitions/28340
В отличие от предыдущих дорожек, мы используем не два, а три временных периода, которые естественным образом вытекают из истории русского языка:
досоветский (1700-1916),
советский (1918-1991),
постсоветский (1992-2016).
Дорожка пройдет в рамках 27-й международной конференции "Диалог". Статьи с описанием решений будут опубликованы в трудах конференции.
Даты
20 января - анонс соревнования, начало тренировочной фазы
1 февраля - публикация отладочного датасета, начало отладочной фазы
22 февраля - публикация тестового датасета, начало тестовой фазы
28 февраля - завершение тестовой фазы, закрытие загрузки ответов
1 марта - оглашение результатов соревнования
20 марта - срок подачи статей
Задача
Задача формулируется как ранжирование списка слов согласно силе произошедших с ними семантических сдвигов в трёх сравнениях:
между досоветским и советским периодами (сравнение RuSemShift1);
между советским и постсоветским периодами (сравнение RuSemShift2);
между досоветским и постсоветским временем (сравнение RuSemShift3).
Важно ещё раз подчеркнуть, что список слов один и тот же для всех сравнений. Участники должны представить три численных значения семантического сдвига для каждого слова.
Более низкое значение соответствует более сильному сдвигу; более высокое значение соответствует сильной семантической близости между использованием слова в разных временных периодах.
Во время тестовой фазы участники получат список из примерно 100 слов. Они должны будут загрузить результаты работы своего метода в виде текстового tab-separated файла, где каждая строка состоит из слова и трех положительных чисел, соответствующих силе сдвига в трёх сравнениях из списка выше. Эти данные будут использованы для построения трёх ранжирований, соответствующих трём столбцам: RusemShift1, RuSemshift2 и RusemShift3. Затем мы вычислим коэффициент ранговой корреляции Спирмана между этими ранжированиями и ранжированиями, полученными из человеческой разметки. Поскольку в качестве метрики оценки используется ранговая корреляция, абсолютные численные значения в ответах не важны (только их ранги друг относительно друга). Тем не менее, для удобства можно примерно считать, что значение 1 соответствует ситуации "значения слова в двух периодах совершенно разные", а значение 4 соответствует ситуации "значения слова абсолютно идентичны" (именно такую шкалу мы использовали при аннотации).
Лучшая система будет определена на основе среднего значения трёх коэффициентов корреляции.
Каждая участвующая команда сможет загрузить до 10 решений в тестовой фазе и до 1000 решений в отладочной фазе.
Во время отладочной фазы (1-22 февраля) мы опубликуем небольшой отладочный датасет (12 вручную размеченных слов, не входящих в основной тестовый датасет), который можно будет использовать для отладки систем. Правильные ответы для отладочного датасета будут скрыты до конца соревнования.
До 1 февраля мы находимся в тренировочной фазе, в которой можно подгружать решения для датасета RuSemShift. Этот датасет доступен публично, так что правильные ответы известны всем. Эта фаза предназначена в основном для проверки технических аспектов загрузки решений. Чтобы узнать формат подачи в этой фазе, скачайте соответствущий Starting Kit из вкладки Files. Поскольку в RuSemShift нет разметки для пары периодов "до-советский - пост-советский", в этой фазе колонка лидерборда RuSemShift3 будет всегда показывать ноль, то есть, в тренировочной фазе участвуют только две пары периодов, каждый со своим набором слов. Ещё раз напоминаем, что в отладочной и тестовой фазах вы встретите один набор слов и три пары временных периодов. Существующий датасет RuSemShift используется в тренировочной фазе исключительно для тренировки.
Важно: в качестве меры семантического сдвига при аннотации мы используем метрику COMPARE. В целом, COMPARE - это средняя семантическая близость между употреблениями одного и того же слова в двух разных временных периодах, полученная из ручной разметки. Чем ниже значение меры COMPARE, тем сильнее семантический сдвиг. Таким образом, если ответы вашей системы генерируют сильную отрицательную корреляцию, возможно, вы ошибочно выдаёте более высокие значения для более сильных сдвигов. Просто инвертируйте это поведение. Подробности можно почитать в статье [3]
Данные
Организаторы RuShiftEval проводят ручную разметку диахронических семантических сдвигов на основе соответствующих временных периодов из Национального Корпуса Русского Языка (НКРЯ). Поэтому мы рекомендуем и участникам также использовать НКРЯ как источник диахронических корпусных данных (при этом не возбраняется и обращение к любым другим корпусам).
Неаннотированная и перемешанная по предложениям версия НКРЯ, разбитая на три интересующих нас периода, свободно доступна для скачивания после подписания лицензии.
Тестовый и отладочный датасеты размечаются вручную с использованием процедуры DuReL, аналогичной использовавшейся ранее для аналогичных датасетов [3], в том числе для русского [4]. Датасет RuSemShift для русского, построенный на материалах того же корпуса, находится в свободном доступе; его можно использовать для обучения или просто для проверки технических аспектов работы ваших систем. Отметим, что вопрос о том, помогают ли тренировочные данные в определении семантических сдвигов, остается открытым. Одна из задач нашего соревнования - найти на него ответ.
После завершения дорожки все размеченные датасеты будут опубликованы в свободном доступе.
Организаторы
Подписывайтесь на наш Телеграм-канал с анонсами и обсуждениями соревнования. Загрузить решения и посмотреть лидерборд RuShiftEval можно на платформе Codalab.
Литература
[1] Schlechtweg, D., McGillivray, B., Hengchen, S., Dubossarsky, H., & Tahmasebi, N. (2020). Semeval-2020 task 1: Unsupervised lexical semantic change detection. Proceedings of the Fourteenth Workshop on Semantic Evaluation, ACL, 2020
[2] Basile, Pierpaolo, et al. "DIACR-Ita@ EVALITA2020: Overview of the EVALITA2020 Diachronic Lexical Semantics (DIACR-Ita) Task." Proceedings of the 7th evaluation campaign of Natural Language Processing and Speech tools for Italian (EVALITA 2020), Online. CEUR. org (2020).
[3] Schlechtweg, Dominik, Sabine Schulte im Walde, and Stefanie Eckmann. "Diachronic Usage Relatedness (DURel): A Framework for the Annotation of Lexical Semantic Change." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). 2018.
[4] Rodina, Julia, and Andrey Kutuzov. "RuSemShift: a dataset of historical lexical semantic change in Russian." COLING 2020
27.11.2020. На сайте НКРЯ появились диахронические датасеты русского языка!
Оцифрованные тексты разных эпох представляют особенную ценность для исследователей и разработчиков в сфере языка: для научных задач это позволяет проверить ряд гипотез, связанных с диахроническим взглядом на язык; для прикладного анализа данных это важно в контексте задач извлечения информации из документов, созданных в разное время. Однако Национальный корпус русского языка, оставаясь одним из наиболее полных цифровых хранилищ русских текстов, предоставлял возможность обращения к собственным данным лишь через интерфейс поиска, что не отвечает современным задачам фундаментальной и компьютерной лингвистики.
В результате переговоров с НКРЯ, представители группы датасетов получили доступ к большинству текстов Основного корпуса НКРЯ и предобработали его так, чтобы он отвечал двум противоречивым требованиям: с одной стороны, был объемен и полезен для статистического анализа, с другой - не нарушал бы авторских прав (как на тексты, так и на базу данных НКРЯ). Было решено выложить тексты без морфологической разметки (то есть лишь тексты исходных предложений) и без метаинформации, причем для текстов с неистекшим сроком действия авторских прав предложения были перемешаны в случайном порядке. Для того чтобы скачать получившиеся датасеты, необходимо следовать простой инструкции, выложенной на сайте НКРЯ: https://ruscorpora.ru/new/corpora-usage.html (раздел “Диахронические датасеты НКРЯ”).
Теперь тысячи текстов, собранных в течение пятнадцати лет сотрудниками проекта НКРЯ, доступны широкому кругу пользователей для выполнения любых задач - от сугубо академических до важных для индустрии.