domenicrosati/QA2D

Name: domenicrosati/QA2D
Creator: domenicrosati
Published: 2022-10-25 10:13:31
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/domenicrosati/QA2D

下载链接

链接失效反馈

官方服务：

资源简介：

QA2D数据集包含86k个问答对及其手动转换的陈述句，主要用于自然语言推理（NLI）任务。其中95%的问答对来自SQuAD数据集，其余5%来自其他四个问答数据集。数据集的结构包括数据实例、数据字段和数据分割。数据字段包括数据集名称、唯一标识符、问题、答案、MTurk收集的答案句子和基于规则的模型生成的答案句子。数据分割包括训练集和开发集，分别包含60,710和10,344个实例。

提供机构：

domenicrosati

原始信息汇总

数据集概述

数据集名称

名称: QA2D

数据集摘要

摘要: QA2D数据集包含86k问题-答案对及其手动转换为陈述句的形式。其中95%的问题答案对来自SQuAD（Rajkupar et al., 2016），剩余5%来自其他四个问答数据集。

支持的任务

任务: 文本到文本生成
具体任务: 文本简化

语言

语言: 英语（en）

数据集结构

数据实例: 包含训练集和开发集，训练集有60,710个实例，开发集有10,344个实例。
数据字段:
- dataset: 数据集名称，小写
- example_uid: 实例唯一ID
- question: 源QA数据集的问题，已分词
- answer: 源QA数据集的答案，已分词
- turker_answer: MTurk收集的答案句子，已分词
- rule-based: 基于规则模型生成的答案句子，已分词

数据集创建

来源数据: 主要来自SQuAD，其余来自四个其他问答数据集。
注释: 由机器生成、众包和发现。

许可证

许可证: MIT

多语言性

多语言性: 单语种

大小类别

大小: 10K<n<100K

源数据集

源数据集: 原始数据集，以及扩展自squad、race、newsqa、qamr、movieQA的数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集