RuCoLA
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/RuCoLA
下载链接
链接失效反馈官方服务:
资源简介:
俄语语言可接受性语料库 (RuCoLA) 是一个数据集,由俄语句子及其二进制可接受性判断组成。它包括来自语言出版物和机器生成示例的专家撰写的句子。语料库涵盖了多种语言现象,从语法和语义到生成模型幻觉。我们发布RuCoLA以促进开发用于识别自然语言错误的方法,并创建公共排行榜以跟踪此问题的进展。
The Russian Corpus of Linguistic Acceptability (RuCoLA) is a dataset consisting of Russian sentences and their binary acceptability judgments. It comprises expert-written sentences sourced from linguistic publications and machine-generated examples. The corpus covers a wide range of linguistic phenomena, spanning from grammar and semantics to generative model hallucinations. We release RuCoLA to facilitate the development of methods for identifying natural language errors, and to establish a public leaderboard for tracking progress on this task.
提供机构:
OpenDataLab
创建时间:
2023-01-13
搜集汇总
数据集介绍

背景与挑战
背景概述
RuCoLA是一个俄语语言可接受性语料库,包含俄语句子及其二进制可接受性判断,数据来源于专家撰写的语言出版物和机器生成示例,覆盖语法、语义及生成模型幻觉等多种语言现象。该数据集由国立研究型大学经济高等学院、Yandex和SberDevices于2022年发布,旨在促进自然语言错误识别方法的开发。
以上内容由遇见数据集搜集并总结生成



