nvidia/ChatRAG-Bench

Name: nvidia/ChatRAG-Bench
Creator: nvidia
Published: 2024-05-24 17:33:56
License: 暂无描述

Hugging Face2024-05-24 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/nvidia/ChatRAG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ChatRAG Bench是一个用于评估模型在文档或检索上下文上的对话问答能力的基准测试。该基准测试基于并衍生自10个现有数据集：Doc2Dial、QuAC、QReCC、TopioCQA、INSCIT、CoQA、HybriDialogue、DoQA、SQA、ConvFinQA。ChatRAG Bench涵盖了广泛的文档和问题类型，要求模型从长上下文中生成回答、理解并推理表格、进行算术计算，并指出问题是否无法在上下文中找到。该基准测试的详细信息在相关论文中有描述。

提供机构：

nvidia

原始信息汇总

数据集概述

数据集语言和许可证

语言: 英语（en）
许可证: 其他（other）

数据集大小和分类

大小分类: 1K<n<10K

数据集标签

RAG
ChatRAG
conversational QA
multi-turn QA
QA with context
evaluation

数据集配置和文件路径

config_name: coqa
- split: dev
- path: data/coqa/*
config_name: inscit
- split: dev
- path: data/inscit/*
config_name: topiocqa
- split: dev
- path: data/topiocqa/*
config_name: hybridial
- split: test
- path: data/hybridial/*
config_name: doc2dial
- split: test
- path: data/doc2dial/test.json
config_name: quac
- split: test
- path: data/quac/test.json
config_name: qrecc
- split: test
- path: data/qrecc/test.json
config_name: doqa_cooking
- split: test
- path: data/doqa/test_cooking.json
config_name: doqa_movies
- split: test
- path: data/doqa/test_movies.json
config_name: doqa_travel
- split: test
- path: data/doqa/test_travel.json
config_name: sqa
- split: test
- path: data/sqa/test.json

数据集来源和用途

来源: 由10个现有数据集构建和衍生，包括Doc2Dial, QuAC, QReCC, TopioCQA, INSCIT, CoQA, HybriDialogue, DoQA, SQA, ConvFinQA。
用途: 用于评估模型的对话式QA能力，特别是在长上下文、表格理解、算术计算和无法在上下文中找到答案的问题处理方面的表现。

数据集评估

评估场景: 包括可回答和不可回答的问题场景评估。
评估方法: 使用QuAC和DoQA数据集评估模型识别问题是否可回答的能力。对于不可回答的问题，模型正确识别为不可回答被视为正确；对于可回答的问题，模型给出答案被视为正确。

数据集许可证

许可证信息: 数据集基于现有数据集构建，用户需参考每个数据集的原始许可证。

搜集汇总

数据集介绍

构建方式

在对话式问答领域，ChatRAG-Bench的构建体现了对现有资源的系统性整合与优化。该数据集并非从零开始构建，而是精心选取了十个成熟的对话问答数据集，包括Doc2Dial、QuAC、QReCC等，并对其进行了标准化处理与统一整合。构建过程着重于保留原始数据集的多样性与复杂性，同时确保评估框架的一致性，从而形成一个覆盖广泛文档类型与问题场景的综合性基准。这种基于现有高质量数据集的衍生方法，既保证了数据来源的可靠性，也显著提升了评估的全面性与可比性。

使用方法

使用ChatRAG-Bench进行模型评估，需遵循其提供的标准化流程。研究者首先需加载指定的数据集配置，每个配置对应一个原始数据集的测试或开发集。评估时，模型需根据提供的对话历史与相关上下文生成回答。数据集配套开源了评估脚本，用于自动化计算各项性能指标，包括常规问答准确率及针对不可回答场景的专项评估。通过运行这些脚本，研究者可以便捷地获得模型在各项子任务上的量化结果，从而进行跨模型的公平比较与深入分析。

背景与挑战

背景概述

在人工智能与自然语言处理领域，对话式问答系统正逐渐成为研究热点，旨在实现机器与人类在复杂语境下的流畅交互。由英伟达公司于2024年发布的ChatRAG-Bench数据集，作为一项综合性基准测试，汇集了Doc2Dial、QuAC、CoQA等十个现有对话数据集，专注于评估模型在文档或检索上下文基础上的多轮对话问答能力。该数据集由Zihan Liu、Wei Ping等研究人员主导构建，其核心研究问题在于推动模型在长文本理解、表格推理、算术运算及未回答问题识别等多维度性能的全面提升，对增强检索增强生成技术的实用性与可靠性具有显著影响力。

当前挑战

ChatRAG-Bench数据集所针对的领域问题，即对话式问答，面临多重挑战：模型需在连续对话中维持上下文一致性，准确解析隐含的用户意图，并处理跨文档或混合格式（如文本与表格）的信息整合。在数据集构建过程中，挑战同样突出，包括如何从异构的原始数据集中统一标注标准与评估指标，确保各子集在难度与领域上的平衡覆盖，以及有效集成未回答场景的评估框架以降低模型幻觉风险，这些都需要精心的设计与协调。

常用场景

经典使用场景

在对话式检索增强生成（RAG）领域，ChatRAG-Bench数据集作为一项综合性评估基准，其经典使用场景聚焦于评测模型在文档或检索上下文基础上进行多轮对话问答的能力。该数据集整合了Doc2Dial、QuAC、QReCC等十个现有对话问答数据集，覆盖了从长文档理解、表格推理到算术计算等多种复杂任务。研究人员通过这一基准能够系统性地衡量模型在真实对话流中处理信息连续性、话题转换及上下文依赖性的表现，为优化对话系统的核心性能提供了标准化的测试环境。

解决学术问题

ChatRAG-Bench数据集致力于解决对话式人工智能中若干关键学术问题，包括模型在开放域多轮对话中的上下文连贯性维持、对混合模态数据（如文本与表格）的联合推理能力，以及针对无法回答问题的识别与处理。该数据集通过引入未回答场景的专项评估，有效降低了模型产生幻觉的风险，推动了可解释性与可靠性研究。其构建为学术界提供了统一的评估框架，促进了对话问答模型在泛化性、鲁棒性及准确性方面的跨模型比较与理论进展。

实际应用

在实际应用层面，ChatRAG-Bench数据集为开发面向真实世界的对话系统提供了关键支撑。其涵盖的领域从金融咨询、旅行规划到烹饪指导，体现了跨行业知识问答的广泛需求。基于该数据集训练的模型能够部署于智能客服、教育辅助工具及专业信息检索平台，实现自然、准确且安全的交互体验。尤其在需要处理长篇文档或结构化数据的场景中，如法律文件分析或医疗报告查询，该数据集助力系统提升复杂问题解决能力与用户满意度。

数据集最近研究