five

domenicrosati/QA2D

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/domenicrosati/QA2D
下载链接
链接失效反馈
官方服务:
资源简介:
QA2D数据集包含86k个问答对及其手动转换的陈述句,主要用于自然语言推理(NLI)任务。其中95%的问答对来自SQuAD数据集,其余5%来自其他四个问答数据集。数据集的结构包括数据实例、数据字段和数据分割。数据字段包括数据集名称、唯一标识符、问题、答案、MTurk收集的答案句子和基于规则的模型生成的答案句子。数据分割包括训练集和开发集,分别包含60,710和10,344个实例。
提供机构:
domenicrosati
原始信息汇总

数据集概述

数据集名称

  • 名称: QA2D

数据集摘要

  • 摘要: QA2D数据集包含86k问题-答案对及其手动转换为陈述句的形式。其中95%的问题答案对来自SQuAD(Rajkupar et al., 2016),剩余5%来自其他四个问答数据集。

支持的任务

  • 任务: 文本到文本生成
  • 具体任务: 文本简化

语言

  • 语言: 英语(en)

数据集结构

  • 数据实例: 包含训练集和开发集,训练集有60,710个实例,开发集有10,344个实例。
  • 数据字段:
    • dataset: 数据集名称,小写
    • example_uid: 实例唯一ID
    • question: 源QA数据集的问题,已分词
    • answer: 源QA数据集的答案,已分词
    • turker_answer: MTurk收集的答案句子,已分词
    • rule-based: 基于规则模型生成的答案句子,已分词

数据集创建

  • 来源数据: 主要来自SQuAD,其余来自四个其他问答数据集。
  • 注释: 由机器生成、众包和发现。

许可证

  • 许可证: MIT

多语言性

  • 多语言性: 单语种

大小类别

  • 大小: 10K<n<100K

源数据集

  • 源数据集: 原始数据集,以及扩展自squad、race、newsqa、qamr、movieQA的数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作