domenicrosati/QA2D
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/domenicrosati/QA2D
下载链接
链接失效反馈官方服务:
资源简介:
QA2D数据集包含86k个问答对及其手动转换的陈述句,主要用于自然语言推理(NLI)任务。其中95%的问答对来自SQuAD数据集,其余5%来自其他四个问答数据集。数据集的结构包括数据实例、数据字段和数据分割。数据字段包括数据集名称、唯一标识符、问题、答案、MTurk收集的答案句子和基于规则的模型生成的答案句子。数据分割包括训练集和开发集,分别包含60,710和10,344个实例。
提供机构:
domenicrosati
原始信息汇总
数据集概述
数据集名称
- 名称: QA2D
数据集摘要
- 摘要: QA2D数据集包含86k问题-答案对及其手动转换为陈述句的形式。其中95%的问题答案对来自SQuAD(Rajkupar et al., 2016),剩余5%来自其他四个问答数据集。
支持的任务
- 任务: 文本到文本生成
- 具体任务: 文本简化
语言
- 语言: 英语(en)
数据集结构
- 数据实例: 包含训练集和开发集,训练集有60,710个实例,开发集有10,344个实例。
- 数据字段:
dataset: 数据集名称,小写example_uid: 实例唯一IDquestion: 源QA数据集的问题,已分词answer: 源QA数据集的答案,已分词turker_answer: MTurk收集的答案句子,已分词rule-based: 基于规则模型生成的答案句子,已分词
数据集创建
- 来源数据: 主要来自SQuAD,其余来自四个其他问答数据集。
- 注释: 由机器生成、众包和发现。
许可证
- 许可证: MIT
多语言性
- 多语言性: 单语种
大小类别
- 大小: 10K<n<100K
源数据集
- 源数据集: 原始数据集,以及扩展自squad、race、newsqa、qamr、movieQA的数据集。



