five

serhany/scaling-qa

收藏
Hugging Face2024-07-03 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/serhany/scaling-qa
下载链接
链接失效反馈
官方服务:
资源简介:
scaling-qa数据集是通过合并多个现有的问答数据集创建的,旨在增强基于文本到文本转换的生成模型(如T5)的性能。数据集采用SQuAD格式,包含三个字段:context、question和answer。数据集中包含许多基于同一上下文的问答对,这有助于模型生成多样化的问题或答案。数据集可用于问答(QA)或问题生成(QG)任务。数据集中包含了SQuAD、NewsQA、DROP、Duo_RC和COQA数据集的内容,特别是COQA数据集中的对话式问答对被转换为单独的条目,以帮助模型理解对话行为,同时避免过度拟合为严格的对话模型。

scaling-qa is a dataset made of merging a wide corpus on existing Question Answering datasets. The dataset has been created with the sole purpose of augmenting Text-to-Text transformer-based generation models like T5, and has shown a great performance increase so far. The dataset is in SQuAD format, and includes 3 fields: context, question and answer. In the dataset, there are many questions and answers over the same context, which adds up to the models abilities to generate diverse questions or answers. The dataset can be used for Question Answering (QA) or Question Generation (QG) tasks. The dataset is a collection of: SQuAD, NewsQA, DROP, Duo_RC and COQA datasets. The conversational question-answer pairs in the COQA dataset have been made into separate entries, with multiple question and answer pairs corresponding to the same context. This structure helps the models understand this conversational behaviour when needed, but prevents them from overfitting into a strictly conversational model.
提供机构:
serhany
原始信息汇总

数据集概述

数据集名称

scaling-qa

数据集目的

用于增强基于文本到文本转换的生成模型(如T5)的性能。

数据格式

  • 格式:SQuAD
  • 字段:
    • context:文本类型
    • question:文本类型
    • answer:文本类型

数据集结构

  • 包含多个问题和答案对应同一上下文,有助于模型生成多样化的问题或答案。

数据集用途

  • 适用于问答(QA)或问题生成(QG)任务。

数据集组成

  • 包含以下数据集的合并:
    • SQuAD
    • NewsQA
    • DROP
    • Duo_RC
    • COQA
  • COQA数据集中的对话式问答对被拆分为单独的条目,每个条目包含多个问题和答案对应同一上下文。

数据集版本

  • 默认配置:default

数据集大小

  • 训练集:
    • 样本数:362399
    • 字节数:819118316
  • 下载大小:58240757
  • 数据集总大小:819118316
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作