CReSt

github2025-05-15 更新2025-05-27 收录

下载链接：

https://github.com/UpstageAI/CReSt

下载链接

链接失效反馈

官方服务：

资源简介：

CReSt是一个包含2,245个人工标注示例的基准测试数据集，旨在捕捉复杂、多步骤的检索增强生成（RAG）场景，支持英文和韩文。

CReSt is a benchmark dataset consisting of 2,245 manually annotated examples, designed to capture complex, multi-step Retrieval-Augmented Generation (RAG) scenarios, and supports both English and Korean.

创建时间：

2025-05-09

原始信息汇总

CReSt Benchmark 数据集概述

基本信息

数据集名称: CReSt Benchmark
简介: 一个包含2,245个人工标注示例（英语和韩语）的基准测试，用于捕捉复杂、多步骤的检索增强生成（RAG）场景。
许可证: CC-by-NC 4.0

数据集内容

语言: 英语、韩语
示例数量: 2,245
主要用途: 评估检索增强生成（RAG）在结构化文档上的复杂推理能力

使用方式

克隆仓库并安装依赖 shell git clone git@github.com:UpstageAI/CReSt.git cd CReSt pip install -r requirements.txt
配置环境变量 shell cp .env.example .env
运行评估脚本 shell python -m scripts.run_evaluation --model $MODEL --eval-model gpt-4o --method $METHOD --dataset upstage/CReSt

引用信息

bibtex @inproceedings{khang2025crest, title={CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents}, author={Khang, Minsoo and Park, Sangjun and Hong, Teakgyu and Jung, Dawoon}, booktitle={TBD}, pages={TBD}, year={2025} }

搜集汇总

数据集介绍

构建方式

CReSt数据集作为面向结构化文档复杂推理的检索增强生成基准，其构建过程体现了严谨的学术规范。研究团队通过人工标注方式精心构建了2,245个涵盖英语和韩语的双语样本，每个样本都经过多步骤的验证流程以确保数据质量。标注过程中特别注重捕捉现实场景中的复杂推理需求，使数据集能够全面反映检索增强生成技术在实际应用中的挑战。

使用方法

使用该数据集时需遵循标准的基准测试流程。研究人员首先需要配置运行环境并安装指定依赖库，通过提供的脚本接口可以灵活选择评估模型和方法。数据集支持与GPT-4等先进模型的直接对接，用户可通过修改环境变量配置个性化评估方案。评估过程完全自动化，系统会自动生成标准化评测报告，便于不同方法之间的横向比较。

背景与挑战

背景概述

CReSt数据集由UpstageAI团队于2025年推出，旨在为结构化文档上的检索增强生成（RAG）任务提供复杂推理能力的评估基准。该数据集包含2,245个经过人工标注的英文和韩文样本，覆盖多步骤推理场景，填补了传统RAG基准在复杂逻辑处理能力验证方面的空白。作为自然语言处理领域的前沿探索，CReSt通过模拟真实世界文档交互中的认知挑战，为提升大语言模型在金融、法律等专业领域的应用可靠性提供了关键测试平台。主要研究者Minsoo Khang等人在设计时特别强调跨语言、多模态文档结构的处理需求，其成果已引发学术界对RAG系统评估范式的新一轮讨论。

当前挑战

该数据集首要解决的是RAG系统在复杂结构化文档处理中的三大挑战：跨语言语义对齐的准确性、多跳推理的逻辑连贯性以及异构数据源的知识融合能力。构建过程中面临标注一致性的技术难题，专业领域文档需要同时协调语言学家和领域专家进行双重校验；样本复杂度控制亦存在平衡性问题，既要保证推理深度足够体现模型边界，又需维持任务可解性以形成有效评估。数据采集阶段还遭遇多模态文档版权清理的合规性挑战，特别是韩文金融文档涉及严格的隐私保护条款。

常用场景

经典使用场景

在信息检索与自然语言处理领域，CReSt数据集为研究者提供了一个评估检索增强生成（RAG）模型性能的标准化平台。该数据集通过2,245个经过人工标注的英文和韩文样本，模拟了多步骤复杂推理场景，使得研究者能够系统地测试模型在结构化文档上的理解和推理能力。这种设计特别适合用于验证模型在跨语言、跨领域的知识整合与逻辑推理方面的表现。

解决学术问题

CReSt数据集主要解决了当前RAG模型在复杂推理任务中的评估不足问题。传统数据集往往局限于简单的问答或单步检索，而CReSt通过引入多步骤推理和结构化文档处理，填补了这一研究空白。它为学术界提供了一个可重复、可比较的基准，推动了模型在复杂场景下的性能优化与创新，对提升RAG技术的理论深度具有重要意义。

实际应用

在实际应用中，CReSt数据集能够支持开发更智能的问答系统和知识管理工具。例如，在医疗、法律等专业领域，系统需要从大量结构化文档中提取信息并进行多步推理以生成准确回答。CReSt的评估框架帮助开发者验证系统在此类高要求场景下的可靠性，为商业化应用提供了坚实的技术保障。

数据集最近研究