five

dynabench/qa

收藏
Hugging Face2022-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dynabench/qa
下载链接
链接失效反馈
官方服务:
资源简介:
Dynabench.QA是一个通过对抗性人类注释收集的阅读理解数据集,旨在为最先进的模型提供更具挑战性和多样性的阅读理解任务。数据集的第一轮与adversarialQA数据集相同,使用了三个不同的模型(BiDAF、BERT-Large和RoBERTa-Large)在注释循环中构建了三个数据集,每个数据集包含10,000个训练示例、1,000个验证示例和1,000个测试示例。这些数据集由人类注释者与阅读理解模型在交互环境中共同创建,确保数据集中的问题对当前最先进的模型具有挑战性。数据集的结构与SQuAD 1.1相同,包含标题、上下文、问题和答案等字段。数据集的语言为英语,数据来源于维基百科,并由Mechanical Turk上的人类注释者进行注释。
提供机构:
dynabench
原始信息汇总

数据集概述

数据集描述

数据集摘要

Dynabench.QA 是一个通过多轮数据收集的对抗性阅读理解数据集。第一轮数据集与 adversarialQA 数据集 相同,包含三个新的阅读理解数据集,这些数据集是通过对抗性模型循环构建的。使用三种不同的模型(BiDAF、BERT-Large 和 RoBERTa-Large)构建了三个数据集(D(BiDAF)、D(BERT) 和 D(RoBERTa)),每个数据集包含 10,000 个训练样本、1,000 个验证样本和 1,000 个测试样本。

支持的任务和排行榜

  • 任务类别: extractive-qa
  • 任务描述: 该数据集可用于训练提取式问答模型,即从文本段落中选择问题的答案。该任务的成功通常通过高字重叠 F1 分数 来衡量。
  • 排行榜: 该任务有一个活跃的排行榜,可在 Dynabench 上查看,模型根据 F1 分数进行排名。

语言

数据集中的文本为英语,对应的 BCP-47 代码为 en

数据集结构

数据实例

数据格式与 SQuAD 1.1 相同,示例如下: json { "data": [ { "title": "Oxygen", "paragraphs": [ { "context": "Among the most important classes of organic compounds that contain oxygen are (where "R" is an organic group): alcohols (R-OH); ethers (R-O-R); ketones (R-CO-R); aldehydes (R-CO-H); carboxylic acids (R-COOH); esters (R-COO-R); acid anhydrides (R-CO-O-CO-R); and amides (R-C(O)-NR2).", "qas": [ { "id": "22bbe104aa72aa9b511dd53237deb11afa14d6e3", "question": "In addition to having oxygen, what do alcohols, ethers and esters have in common, according to the article?", "answers": [ { "answer_start": 36, "text": "organic compounds" } ] } ] } ] } ] }

数据字段

  • title: 维基百科页面的标题
  • context: 上下文/段落
  • id: 每个问题的字符串标识符
  • answers: 所有提供的答案列表,包含 answer_start(答案开始位置的字符索引)和 text(答案文本)

数据分割

第一轮数据集包含三个不同的数据集,分别使用 BiDAF、BERT-Large 和 RoBERTa-Large 模型构建。每个数据集包含 10,000 个训练样本、1,000 个验证样本和 1,000 个测试样本,总计 30,000/3,000/3,000 训练/验证/测试样本。

数据集创建

策划理由

该数据集的收集旨在为最先进的阅读理解模型提供更具挑战性和多样性的数据集。

源数据

  • 初始数据收集和规范化: 源段落来自维基百科,与 SQuAD v1.1 使用的段落相同。
  • 源语言生产者: 段落由维基百科编辑提供,问题由 Mechanical Turk 上的人工标注者提供。

标注

  • 标注过程: 数据集通过对抗性人工标注过程收集,该过程将人工标注者与阅读理解模型配对在交互式环境中。人工标注者针对给定段落提出问题并标出正确答案,模型尝试回答问题,如果模型未能正确回答,则人工标注者获胜。否则,人工标注者修改或重写问题,直到成功欺骗模型。
  • 标注者: 标注者来自 Amazon Mechanical Turk,地理上限制在美国、英国和加拿大,之前成功完成了至少 1,000 个 HIT,并且 HIT 批准率超过 98%。标注者在接受标注前经过严格的培训和资格认证。

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助开发更好的问答系统。成功的系统能够从短段落中提供准确的提取式答案。该数据集被视为当代最先进模型难以正确回答的问题的测试平台,因此通常需要比在段落中检测明确提及的短语更复杂的理解能力。

偏见讨论

数据集可能在源段落选择、标注问题和答案以及对抗性标注协议产生的算法偏见方面表现出各种偏见。

其他已知限制

附加信息

数据集策展人

该数据集最初由 Max Bartolo、Alastair Roberts、Johannes Welbl、Sebastian Riedel 和 Pontus Stenetorp 在伦敦大学学院(UCL)工作期间创建。

许可信息

该数据集在 CC BY-SA 3.0 许可下发布。

引用信息

bibtex @article{bartolo2020beat, author = {Bartolo, Max and Roberts, Alastair and Welbl, Johannes and Riedel, Sebastian and Stenetorp, Pontus}, title = {Beat the AI: Investigating Adversarial Human Annotation for Reading Comprehension}, journal = {Transactions of the Association for Computational Linguistics}, volume = {8}, pages = {662-678}, year = {2020}, doi = {10.1162/tacl_a_00338}, URL = { https://doi.org/10.1162/tacl_a_00338 }, eprint = { https://doi.org/10.1162/tacl_a_00338 } }

贡献

感谢 @maxbartolo 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作