nvidia/ChatQA-Training-Data

Name: nvidia/ChatQA-Training-Data
Creator: nvidia
Published: 2024-06-04 06:20:24
License: 暂无描述

Hugging Face2024-06-04 更新2024-05-18 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/ChatQA-Training-Data

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了[ChatQA](https://arxiv.org/pdf/2401.10225)的训练数据集。该数据集构建并衍生自现有数据集：[DROP](https://arxiv.org/abs/1903.00161)、[NarrativeQA](https://arxiv.org/abs/1712.07040)、[NewsQA](https://arxiv.org/abs/1611.09830)、[Quoref](https://arxiv.org/abs/1908.05803)、[ROPES](https://arxiv.org/abs/1908.05852)、[SQuAD1.1](https://arxiv.org/abs/1606.05250)、[SQuAD2.0](https://arxiv.org/abs/1806.03822)、[TAT-QA](https://arxiv.org/abs/2105.07624)、一个SFT数据集，以及我们通过GPT-3.5-turbo-0613生成的合成对话QA数据集。SFT数据集构建并衍生自：[Soda](https://arxiv.org/abs/2212.10465)、[ELI5](https://arxiv.org/abs/1907.09190)、[FLAN](https://arxiv.org/abs/2210.11416)、[the FLAN collection](https://arxiv.org/abs/2301.13688)、[Self-Instruct](https://arxiv.org/abs/2212.10560)、[Unnatural Instructions](https://arxiv.org/abs/2212.09689)、[OpenAssistant](https://arxiv.org/abs/2304.07327)和[Dolly](https://github.com/databrickslabs/dolly)。

我们公开了ChatQA的训练数据集，相关研究论文可参见https://arxiv.org/pdf/2401.10225。该数据集的构建与衍生依托于以下现有公开数据集：DROP（相关论文见https://arxiv.org/abs/1903.00161）、NarrativeQA（https://arxiv.org/abs/1712.07040）、NewsQA（https://arxiv.org/abs/1611.09830）、Quoref（https://arxiv.org/abs/1908.05803）、ROPES（https://arxiv.org/abs/1908.05852）、SQuAD1.1（https://arxiv.org/abs/1606.05250）、SQuAD2.0（https://arxiv.org/abs/1806.03822）、TAT-QA（https://arxiv.org/abs/2105.07624）、一个监督微调（Supervised Fine-Tuning, SFT）数据集，以及我们基于GPT-3.5-turbo-0613生成的合成式对话问答（QA）数据集。该SFT数据集的构建同样衍生自以下数据集：Soda（https://arxiv.org/abs/2212.10465）、ELI5（https://arxiv.org/abs/1907.09190）、FLAN（https://arxiv.org/abs/2210.11416）、FLAN合集（https://arxiv.org/abs/2301.13688）、Self-Instruct（https://arxiv.org/abs/2212.10560）、Unnatural Instructions（https://arxiv.org/abs/2212.09689）、OpenAssistant（https://arxiv.org/abs/2304.07327）与Dolly（相关开源仓库为https://github.com/databrickslabs/dolly）。

提供机构：

nvidia

原始信息汇总

数据集概述

基本信息

许可证: other
大小: 10K<n<100K
语言: 英语
标签: RAG, conversational QA, multi-turn QA, QA with context, train

数据集组成

来源: 该训练数据集源自多个现有数据集，包括DROP、NarrativeQA、NewsQA、Quoref、ROPES、SQuAD1.1、SQuAD2.0、TAT-QA，以及一个由GPT-3.5-turbo-0613生成的合成对话QA数据集。
配置: 数据集包含多个配置，每个配置对应不同的数据集和训练集分割。

训练细节

训练流程: 采用两阶段指令调优过程。第一阶段使用SFT数据，第二阶段结合SFT数据与其他数据集。
数据混合比例: 详细列出了各数据集在第二阶段训练中的混合比例。
指令添加: 针对不同类型的数据集，添加了特定的用户指令，以指导模型生成不同类型的回答。

许可证

合成对话QA数据集: 仅限非商业使用，受OpenAI的Terms of Use约束。
其他数据集: 使用时需参考原始数据集的许可证。

联系方式

联系人: Zihan Liu (zihanl@nvidia.com), Wei Ping (wping@nvidia.com)

引用信息

@article{liu2024chatqa, title={ChatQA: Surpassing GPT-4 on Conversational QA and RAG}, author={Liu, Zihan and Ping, Wei and Roy, Rajarshi and Xu, Peng and Lee, Chankyu and Shoeybi, Mohammad and Catanzaro, Bryan}, journal={arXiv preprint arXiv:2401.10225}, year={2024} }

搜集汇总

数据集介绍

构建方式

在对话式问答领域，数据集的构建往往需要融合多样化的知识来源。本数据集通过集成多个权威阅读理解基准，如DROP、SQuAD系列及NarrativeQA等，并辅以指令微调数据集与GPT-3.5生成的合成对话数据，构建了一个综合性的训练语料库。其构建过程采用两阶段指令微调策略，第一阶段专注于监督微调数据，第二阶段则依据预设比例混合各类数据集，同时为不同任务类型添加特定指令提示，以优化模型在多轮对话与上下文问答中的表现。

特点

该数据集在对话式问答任务中展现出鲜明的特色，其核心在于覆盖了广泛的问答类型，包括短答案抽取、长答案生成、数值计算及混合答案形式。数据集融合了真实标注数据与合成对话数据，既保证了数据的多样性与复杂性，又通过精心设计的指令提示增强了模型对任务意图的理解。这种结构使得数据集能够有效支持模型在检索增强生成与多轮对话场景下的性能提升，为高级对话系统的训练提供了坚实的数据基础。

使用方法

在自然语言处理研究中，该数据集主要用于训练和优化对话式问答模型。使用者可依据提供的两阶段训练配置文件，分别进行监督微调与混合数据微调。具体应用中，需注意不同数据子集对应的指令前缀，例如短答案任务需添加“Answer the following question with a short span”，而算术任务则需使用相应计算指令。通过遵循预设的数据混合比例与训练步骤，研究者能够复现或改进基于ChatQA框架的模型，推动对话系统在理解与生成能力上的进步。

背景与挑战

背景概述

在自然语言处理领域，对话式问答与检索增强生成技术正成为研究热点。由英伟达公司于2024年发布的ChatQA训练数据集，旨在推动多轮对话问答与上下文感知的问答系统发展。该数据集整合了DROP、NarrativeQA、SQuAD等多个经典阅读理解基准，并融合了指令微调数据与合成对话数据，通过两阶段训练框架优化模型在复杂对话场景中的表现。其核心研究问题聚焦于提升模型在开放域对话中进行精准、连贯且基于上下文的答案生成能力，对促进检索增强生成与对话智能的融合具有显著影响力。

当前挑战

该数据集致力于解决对话式问答中模型对多轮交互、上下文依赖及复杂推理的适应性问题，其挑战在于如何统一处理短答案抽取、长答案生成、数值计算及混合答案类型等多种任务模式。在构建过程中，挑战主要源于异构数据源的集成与标准化，需协调不同数据集的标注格式、答案长度与领域差异；同时，合成对话数据的质量把控与指令设计的有效性，也对数据集的平衡性与泛化能力提出了较高要求。

常用场景

经典使用场景

在对话式问答与检索增强生成领域，ChatQA-Training-Data数据集被广泛用于训练和评估大型语言模型的多轮对话理解与生成能力。该数据集融合了多种经典阅读理解基准，如DROP、SQuAD等，并引入了合成对话数据，使得模型能够在复杂语境下进行连贯的交互式问答。研究者通常利用该数据集进行指令微调，以提升模型在开放域对话中结合上下文进行精准回答的性能，尤其在需要多步推理或数值计算的场景中表现突出。

解决学术问题

该数据集有效应对了对话系统中长期存在的核心挑战，如上下文连贯性保持、指代消解以及混合模态信息处理。通过整合涵盖离散推理、叙事理解、表格文本混合问答等多种任务的数据，它为解决开放域对话中的知识整合与逻辑推理问题提供了统一基准。其意义在于推动了检索增强生成技术在真实对话场景中的实用化，为构建能够理解复杂用户意图、进行多轮交互的智能助手奠定了数据基础，显著提升了学术研究中对模型泛化能力与鲁棒性的评估标准。

衍生相关工作

基于该数据集衍生的经典工作包括ChatQA系列模型及其改进架构，这些模型在对话式问答与检索增强生成任务中取得了领先性能。相关研究进一步探索了多阶段指令微调策略、上下文感知的检索机制以及混合数据集的采样优化方法。同时，该数据集也促进了如Llama3-ChatQA等开源模型的开发，并催生了针对长答案生成、算术推理等子任务的专项评估基准，为后续对话系统的模块化设计与端到端优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集