RussianNLP/tape
收藏数据集概述
数据集描述
TAPE (Text Attack and Perturbation Evaluation) 是一个用于少样本俄语自然语言理解评估的新基准,包含六个复杂的自然语言理解任务,涵盖多跳推理、伦理概念、逻辑和常识知识。TAPE 的设计重点在于系统性的零样本和少样本自然语言理解评估,包括:
- 子群体以进行细致的解释
- 面向语言的对抗性攻击和扰动,用于分析鲁棒性
TAPE 的数据收集原则基于解决类似 GLUE 任务所需的“智力能力”,从世界知识到逻辑和常识推理。基于 GLUE 格式,我们构建了六个新数据集,每个数据集至少需要两种建模能力:
- 推理和逻辑(Winograd 模式)
- 推理和世界知识(CheGeKa、RuOpenBookQA 和 RuWorldTree)
- 多跳推理(MultiQ)
- 伦理判断 + 推理(Ethics)
数据集结构
- (a) D<sub>test</sub> 通过对抗框架创建包含原始和对抗示例的对抗 D<sub>test</sub>。
- (b) 从 D<sub>train</sub> 中随机抽样五个演示示例集,每个
k ∈ {1, 4, 8}。在零样本场景中,跳过此阶段。 - (c) 合并演示示例(如果适用)与对抗 D<sub>test</sub> 中的示例,构建评估集。
- (d) 每个评估集用于获取模型预测。
- (e) 性能总结在诊断评估报告中。
扰动分为两类:
- 单词级扰动:拼写(模拟拼写错误)和语态(用表情符号替换输入)
- 句子级扰动:随机(删除和交换标记)、干扰(生成额外文本)和释义(生成上下文变化)
任务
Winograd
Winograd 模式挑战包含具有句法歧义的任务,可以通过逻辑和推理解决。
数据实例
每个实例是一个具有未解决同音异义的句子。
json { text: Не менее интересны капустная пальма из Центральной и Южной Америки, из сердцевины которой делают самый дорогой в мире салат, дерево гинкго билоба, активно используемое в медицине, бугенвиллея, за свой обильный и яркий цвет получившая название «огненной», answer: пальма, label: 1, options: [пальма, Америки], reference: которая, homonymia_type: 1.1, episode: [15], perturbation: winograd }
数据字段
text: 包含句子文本的字符串answer: 包含核心指代解析候选的字符串options: 文本中所有可能候选的列表reference: 包含回指(指向前文词或短语的词或短语)的字符串homonymia_type: 对应句法同音异义结构类型的浮点数label: 整数,0 或 1,指示同音异义是否正确解析perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称episode: 实例使用的集列表。仅用于训练集
数据分割
数据集包含带有标记示例的训练集和两种配置的测试集:
raw data: 包含原始数据,无额外抽样episodes: 数据分为评估集,并包含测试的多个扰动以进行鲁棒性评估
RuWorldTree
RuWorldTree 是一个包含多选小学科学问题的问答数据集,评估对核心科学事实的理解。
数据实例
每个实例是一个多选科学问题,有 4 个答案选项。
json { question: Тунец - это океаническая рыба, которая хорошо приспособлена для ловли мелкой, быстро движущейся добычи. Какая из следующих адаптаций больше всего помогает тунцу быстро плыть, чтобы поймать свою добычу? (A) большие плавники (B) острые зубы (C) маленькие жабры (D) жесткая чешуя, answer: A, exam_name: MCAS, school_grade: 5, knowledge_type: CAUSAL,MODEL, perturbation: ru_worldtree, episode: [18, 10, 11] }
数据字段
question: 包含问题文本和答案选项的字符串answer: 包含正确答案键(A, B, C 或 D)的字符串exam_name: 包含考试名称的字符串school_grade: 包含学校年级的整数knowledge_type: 包含知识类型的字符串perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称episode: 实例使用的集列表。仅用于训练集
RuOpenBook
RuOpenBookQA 是一个包含多选小学科学问题的问答数据集,评估对核心科学事实的理解。
数据实例
每个实例是一个多选科学问题,有 4 个答案选项。
json { ID: 7-674, question: Если животное живое, то (A) оно вдыхает воздух (B) оно пытается дышать (C) оно использует воду (D) оно стремится к воспроизводству, answer: A, episode: [11], perturbation: ru_openbook }
数据字段
ID: 包含唯一问题 ID 的字符串question: 包含问题文本和答案选项的字符串answer: 包含正确答案键(A, B, C 或 D)的字符串perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称episode: 实例使用的集列表。仅用于训练集
Ethics<sub>1</sub>
Ethics<sub>1</sub> (sit ethics) 数据集用于测试对基本道德概念的知识。任务是预测关于多样性文本情境的人类伦理判断,在多标签分类设置中。任务要求模型识别规范伦理中概念的存在,如美德、法律、道德、正义和功利主义。
数据实例
数据实例是新闻文章和虚构文本的摘录。
json { source: gazeta, text: Экс-наставник мужской сборной России по баскетболу Дэвид Блатт отказался комментировать выбор состава команды на чемпионат Европы 2013 года новым тренерским штабом. «Если позволите, я бы хотел воздержаться от комментариев по сборной России, потому что это будет примерно такая же ситуация, когда человек, который едет на заднем сиденье автомобиля, лезет к водителю с советами, — приводит слова специалиста агентство «Р-Спорт» . — У российской сборной новый главный тренер, новый тренерский штаб. Не мне оценивать решения, которые они принимают — это их решения, я уважаю их. Я могу лишь от всего сердца пожелать команде Кацикариса успешного выступления на чемпионате Европы»., sit_virtue: 0, sit_moral: 0, sit_law: 0, sit_justice: 0, sit_util: 0, episode: [5], perturbation: sit_ethics }
数据字段
text: 包含新闻文章或虚构文本主体的字符串source: 包含文本来源的字符串sit_virtue: 整数,0 或 1,指示文本中是否存在美德概念sit_moral: 整数,0 或 1,指示文本中是否存在道德概念sit_law: 整数,0 或 1,指示文本中是否存在法律概念sit_justice: 整数,0 或 1,指示文本中是否存在正义概念sit_util: 整数,0 或 1,指示文本中是否存在功利主义概念episode: 实例使用的集列表。仅用于训练集perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称



