продукты проекта
Продукты лаборатории цифровой документации
Продукты лаборатории цифровой документации
Продукты других участников консорциума
Продукты других участников консорциума
Диахронический датасет русского языка
Диахронический датасет русского языка
Представляет собой три .txt-файла, содержащих предложения из текстов Основного корпуса НКРЯ (без метаразметки и морфологической разметки; для текстов, защищенных авторским правом, предложения идут в рандомном порядке). Общий объем датасета равен 257 млн. словоупотреблений. Первый файл представляет дореволюционные тексты, второй - тексты 1917-1990 гг., третий - тексты, созданные с 1991 г.
Создатель датасета (перевел материалы Корпуса в нужный формат): Андрей Кутузов (группа датасетов).
Дата публикации: 27 ноября 2020 г.
Ссылка: https://ruscorpora.ru/new/corpora-usage.html (раздел “Диахронические датасеты НКРЯ”)