продукты проекта

Продукты лаборатории цифровой документации

Продукты других участников консорциума

Диахронический датасет русского языка

Представляет собой три .txt-файла, содержащих предложения из текстов Основного корпуса НКРЯ (без метаразметки и морфологической разметки; для текстов, защищенных авторским правом, предложения идут в рандомном порядке). Общий объем датасета равен 257 млн. словоупотреблений. Первый файл представляет дореволюционные тексты, второй - тексты 1917-1990 гг., третий - тексты, созданные с 1991 г.

Создатель датасета (перевел материалы Корпуса в нужный формат): Андрей Кутузов (группа датасетов).

Дата публикации: 27 ноября 2020 г.

Ссылка: https://ruscorpora.ru/new/corpora-usage.html (раздел “Диахронические датасеты НКРЯ”)