five

RussianNLP/tape

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RussianNLP/tape
下载链接
链接失效反馈
官方服务:
资源简介:
TAPE(文本攻击和扰动评估)是一个用于俄语少样本理解评估的新基准,包含六个复杂的自然语言理解任务,涵盖多跳推理、伦理概念、逻辑和常识知识。数据集的设计重点在于系统性的零样本和少样本NLU评估,包括子群体的细致解释和面向语言的对抗攻击和扰动分析。数据集的结构包括原始数据和对抗数据的测试集,以及从训练集中随机采样的演示示例。数据集的扰动分为词级和句子级两类。
提供机构:
RussianNLP
原始信息汇总

数据集概述

数据集描述

TAPE (Text Attack and Perturbation Evaluation) 是一个用于少样本俄语自然语言理解评估的新基准,包含六个复杂的自然语言理解任务,涵盖多跳推理、伦理概念、逻辑和常识知识。TAPE 的设计重点在于系统性的零样本和少样本自然语言理解评估,包括:

  • 子群体以进行细致的解释
  • 面向语言的对抗性攻击和扰动,用于分析鲁棒性

TAPE 的数据收集原则基于解决类似 GLUE 任务所需的“智力能力”,从世界知识到逻辑和常识推理。基于 GLUE 格式,我们构建了六个新数据集,每个数据集至少需要两种建模能力:

  • 推理和逻辑(Winograd 模式)
  • 推理和世界知识(CheGeKa、RuOpenBookQA 和 RuWorldTree)
  • 多跳推理(MultiQ)
  • 伦理判断 + 推理(Ethics)

数据集结构

  • (a) D<sub>test</sub> 通过对抗框架创建包含原始和对抗示例的对抗 D<sub>test</sub>。
  • (b) 从 D<sub>train</sub> 中随机抽样五个演示示例集,每个 k ∈ {1, 4, 8}。在零样本场景中,跳过此阶段。
  • (c) 合并演示示例(如果适用)与对抗 D<sub>test</sub> 中的示例,构建评估集。
  • (d) 每个评估集用于获取模型预测。
  • (e) 性能总结在诊断评估报告中。

扰动分为两类:

  • 单词级扰动:拼写(模拟拼写错误)和语态(用表情符号替换输入)
  • 句子级扰动:随机(删除和交换标记)、干扰(生成额外文本)和释义(生成上下文变化)

任务

Winograd

Winograd 模式挑战包含具有句法歧义的任务,可以通过逻辑和推理解决。

数据实例

每个实例是一个具有未解决同音异义的句子。

json { text: Не менее интересны капустная пальма из Центральной и Южной Америки, из сердцевины которой делают самый дорогой в мире салат, дерево гинкго билоба, активно используемое в медицине, бугенвиллея, за свой обильный и яркий цвет получившая название «огненной», answer: пальма, label: 1, options: [пальма, Америки], reference: которая, homonymia_type: 1.1, episode: [15], perturbation: winograd }

数据字段

  • text: 包含句子文本的字符串
  • answer: 包含核心指代解析候选的字符串
  • options: 文本中所有可能候选的列表
  • reference: 包含回指(指向前文词或短语的词或短语)的字符串
  • homonymia_type: 对应句法同音异义结构类型的浮点数
  • label: 整数,0 或 1,指示同音异义是否正确解析
  • perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称
  • episode: 实例使用的集列表。仅用于训练集

数据分割

数据集包含带有标记示例的训练集和两种配置的测试集:

  • raw data: 包含原始数据,无额外抽样
  • episodes: 数据分为评估集,并包含测试的多个扰动以进行鲁棒性评估

RuWorldTree

RuWorldTree 是一个包含多选小学科学问题的问答数据集,评估对核心科学事实的理解。

数据实例

每个实例是一个多选科学问题,有 4 个答案选项。

json { question: Тунец - это океаническая рыба, которая хорошо приспособлена для ловли мелкой, быстро движущейся добычи. Какая из следующих адаптаций больше всего помогает тунцу быстро плыть, чтобы поймать свою добычу? (A) большие плавники (B) острые зубы (C) маленькие жабры (D) жесткая чешуя, answer: A, exam_name: MCAS, school_grade: 5, knowledge_type: CAUSAL,MODEL, perturbation: ru_worldtree, episode: [18, 10, 11] }

数据字段

  • question: 包含问题文本和答案选项的字符串
  • answer: 包含正确答案键(A, B, C 或 D)的字符串
  • exam_name: 包含考试名称的字符串
  • school_grade: 包含学校年级的整数
  • knowledge_type: 包含知识类型的字符串
  • perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称
  • episode: 实例使用的集列表。仅用于训练集

RuOpenBook

RuOpenBookQA 是一个包含多选小学科学问题的问答数据集,评估对核心科学事实的理解。

数据实例

每个实例是一个多选科学问题,有 4 个答案选项。

json { ID: 7-674, question: Если животное живое, то (A) оно вдыхает воздух (B) оно пытается дышать (C) оно использует воду (D) оно стремится к воспроизводству, answer: A, episode: [11], perturbation: ru_openbook }

数据字段

  • ID: 包含唯一问题 ID 的字符串
  • question: 包含问题文本和答案选项的字符串
  • answer: 包含正确答案键(A, B, C 或 D)的字符串
  • perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称
  • episode: 实例使用的集列表。仅用于训练集

Ethics<sub>1</sub>

Ethics<sub>1</sub> (sit ethics) 数据集用于测试对基本道德概念的知识。任务是预测关于多样性文本情境的人类伦理判断,在多标签分类设置中。任务要求模型识别规范伦理中概念的存在,如美德、法律、道德、正义和功利主义。

数据实例

数据实例是新闻文章和虚构文本的摘录。

json { source: gazeta, text: Экс-наставник мужской сборной России по баскетболу Дэвид Блатт отказался комментировать выбор состава команды на чемпионат Европы 2013 года новым тренерским штабом. «Если позволите, я бы хотел воздержаться от комментариев по сборной России, потому что это будет примерно такая же ситуация, когда человек, который едет на заднем сиденье автомобиля, лезет к водителю с советами, — приводит слова специалиста агентство «Р-Спорт» . — У российской сборной новый главный тренер, новый тренерский штаб. Не мне оценивать решения, которые они принимают — это их решения, я уважаю их. Я могу лишь от всего сердца пожелать команде Кацикариса успешного выступления на чемпионате Европы»., sit_virtue: 0, sit_moral: 0, sit_law: 0, sit_justice: 0, sit_util: 0, episode: [5], perturbation: sit_ethics }

数据字段

  • text: 包含新闻文章或虚构文本主体的字符串
  • source: 包含文本来源的字符串
  • sit_virtue: 整数,0 或 1,指示文本中是否存在美德概念
  • sit_moral: 整数,0 或 1,指示文本中是否存在道德概念
  • sit_law: 整数,0 或 1,指示文本中是否存在法律概念
  • sit_justice: 整数,0 或 1,指示文本中是否存在正义概念
  • sit_util: 整数,0 或 1,指示文本中是否存在功利主义概念
  • episode: 实例使用的集列表。仅用于训练集
  • perturbation: 包含应用于文本的扰动名称的字符串。如果未应用扰动,则使用数据集名称
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作