CReSt

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/upstage/CReSt

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于检索增强生成的综合基准数据集，包含refusal和non_refusal两个子集，分别包含拒绝和非拒绝情况的案例。

创建时间：

2025-05-12

原始信息汇总

CReSt数据集概述

数据集基本信息

数据集名称: CReSt
发布机构: Upstage
许可证: CC-by-NC 4.0
下载大小: 47,461,178字节
数据集大小: 118,767,733字节

数据集结构

数据子集

refusal子集
- 文件路径: data/refusal-*
- 样本数量: 1,013
- 数据大小: 51,514,308字节
non_refusal子集
- 文件路径: data/non_refusal-*
- 样本数量: 1,232
- 数据大小: 67,253,425字节

数据特征

documents: 字符串类型
query: 字符串类型
answer: 字符串类型
citation_ids: 字符串类型
meta: 字符串类型

使用信息

用途: 用于论文《CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents》
使用说明: 参考CReSt GitHub仓库

引用信息

css @inproceedings{khang2025crest, title={CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents}, author={Khang, Minsoo and Park, Sangjun and Jung, Dawoon and Hong, Teakgyu}, booktitle={TBD}, pages={TBD}, year={2025} }

搜集汇总

数据集介绍

构建方式

CReSt数据集的构建聚焦于结构化文档的复杂推理场景，采用拒绝与非拒绝案例的双轨分类体系。研究团队通过精细标注文档片段（documents）、查询语句（query）、回答内容（answer）及引用标识（citation_ids），形成包含2,245条样本的平行语料库。数据划分严格遵循任务特性，拒绝案例子集含1,013条样本，非拒绝案例子集则涵盖1,232条，所有数据均经过专家验证以确保逻辑一致性。

特点

该数据集的核心价值体现在其对检索增强生成任务的针对性设计。特征字段包含文档原文、用户查询、系统响应及引用关系的多维结构化数据，支持端到端的复杂推理评估。拒绝与非拒绝案例的二元划分提供了独特的错误分析视角，meta字段则保留了原始数据的元信息，为研究模型在结构化文档上的失败模式提供了丰富线索。

使用方法

使用者可通过克隆GitHub仓库快速获取数据集，官方建议遵循CC-by-NC 4.0许可协议。数据以标准JSON格式存储，按拒绝/非拒绝分类预分割，可直接加载至主流机器学习框架。配套代码库提供完整的基准测试流程，包括检索模块接口、生成模型评估脚本及可视化工具链，支持研究者复现论文中的实验设计。

背景与挑战

背景概述

CReSt数据集由UpstageAI团队于2025年构建，旨在为结构化文档上的检索增强生成与复杂推理任务提供全面基准。该数据集由拒绝案例和非拒绝案例两个子集构成，每个样本包含文档、查询、回答及元数据等关键特征，反映了真实场景中知识检索与推理的复杂性。作为检索增强生成领域的前沿资源，CReSt通过结构化文档的深度语义关联分析，推动了多跳推理和知识验证技术的发展，为人工智能处理复杂知识密集型任务设立了新的评估标准。

当前挑战

该数据集主要解决检索增强生成系统在结构化文档上进行多跳推理时面临的三大挑战：跨文档语义关联的精准捕捉、知识验证中的逻辑一致性维护、以及拒绝机制对噪声信息的过滤效能。构建过程中需攻克文档结构异质性带来的标注困难，平衡拒绝与非拒绝案例的样本分布，并确保查询-回答对在复杂推理场景下的语义完整性，这些技术难点使得数据清洗和标注流程需要设计多层次的验证机制。

常用场景

经典使用场景

在自然语言处理领域，CReSt数据集为检索增强生成（RAG）系统提供了复杂推理任务的评估基准。该数据集通过结构化文档中的拒绝和非拒绝案例，为研究者测试模型在复杂场景下的推理能力提供了标准化环境。其典型应用包括评估模型在文档检索、答案生成和逻辑推理方面的综合表现，尤其适合验证模型处理歧义查询和复杂结构化信息的能力。

实际应用

该数据集在智能客服、法律咨询和医疗问答等专业领域展现出重要应用价值。基于CReSt开发的系统能够准确识别超出知识范围的问题并做出恰当拒绝，同时对于可回答的复杂查询能生成基于多文档推理的准确回复。这种能力显著提升了专业服务场景中对话系统的可靠性和实用性。

衍生相关工作

CReSt数据集启发了多个重要研究方向，包括基于证据的可解释生成、结构化文档的联合推理以及拒绝机制的优化算法。以该基准为基础，研究者们开发了文档感知的注意力机制、多跳推理架构等创新方法，这些工作显著推进了检索增强生成技术在复杂任务中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集