TitanMLData/arxiv_qa

Name: TitanMLData/arxiv_qa
Creator: TitanMLData
Published: 2023-08-04 11:38:53
License: 暂无描述

Hugging Face2023-08-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TitanMLData/arxiv_qa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过ChatGPT（text-davinci-003）从Arxiv论文中生成的问答对，数据来源于[此数据集](https://huggingface.co/datasets/ccdv/arxiv-summarization)。数据字段包括TextID（引用arxiv摘要数据集中的数据行）、Question（基于文本的问题）、Response（答案）和Text（包含论文全文作为context:，并附加问题作为question:，用于生成式问答的语言建模）。数据集分为训练集和验证集，分别包含32,392和6,479个实例。

提供机构：

TitanMLData

原始信息汇总

Arxiv Paper Generative Question Answering 数据集概述

数据集描述

数据集总结

该数据集使用ChatGPT（text-davinci-003）从Arxiv论文中生成问答对。
数据来源为Arxiv论文摘要数据集。

数据字段

TextID: 引用Arxiv摘要数据集中的数据行（论文）。
Question: 基于文本内容的问题。
Response: 答案。
Text: 包含论文全文作为context:，问题附加为question:，用于生成式问答的语言模型。

数据分割

包含两个分割：训练集和验证集。

数据集分割	实例数量
训练集	32,392
验证集	6,479

5,000+

优质数据集

54 个

任务类型

进入经典数据集