CReSt
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://github.com/UpstageAI/CReSt
下载链接
链接失效反馈官方服务:
资源简介:
CReSt是一个全面的基准测试,用于评估在结构化文档上进行复杂推理的检索增强生成(RAG)系统的性能。该数据集包含2245个由人类标注的英文和韩文示例,旨在捕捉实际RAG场景中结构化文档的复杂推理需求。CReSt引入了一种定制的评估方法,以全面评估模型在这些关键领域的性能。数据集和代码可在https://github.com/UpstageAI/CReSt获取。
提供机构:
Upstage AI
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
CReSt数据集的构建过程体现了严谨的多阶段设计理念,其核心创新在于采用真实场景文档作为知识源,而非依赖现成数据集。研究团队从Common Crawl和韩国国会图书馆分别采集英文与韩语原始文档,通过语言识别过滤后,运用专业工具将PDF转换为保留布局信息的HTML和纯文本双格式。文档被随机切分为2,048-16,384字符的语义块后,采用四阶段渐进式问答生成框架:首先提取关键信息对(KIE),继而生成基础问答对(BasicQA),再升级为需要单一推理类型的简单问答(SimpleQA),最终组合成需要多类型推理的复杂问答(ComplexQA)。每个实例均包含正负文档块、问题、答案及精确引证索引,并通过人工验证确保答案可验证性与证据对齐。
特点
作为首个支持双语评估的RAG基准,CReSt以2,245个人工标注实例构建了多维评估体系。其显著特征体现在三方面:知识表征方面,55%的HTML格式文档保留原始布局语义,模拟真实网页解析场景;问题设计方面,涵盖数值推理、表格推理等六类推理类型,其中42%的问题需要组合多种推理能力;评估维度方面,独创统一评分机制,同步考察答案正确性(Correct/Partial/Wrong三档)、拒答准确率(Refusal Accuracy)及引证精确度(Precision/Recall)。特别设计的1,013个不可回答问题,有效检验模型对知识边界认知的能力。
使用方法
该数据集支持端到端RAG系统评估,使用流程分为三阶段:检索阶段需从10个混合正负文档块中定位证据;生成阶段要求模型基于Chain-of-Thought产生带引证的答案,对不可回答问题需输出标准拒答语句;评估阶段采用LLM-as-Judge框架,通过语义等价性判断将答案归类为完全正确、部分正确或错误,同时计算引证与金标的重合度。研究者推荐Least-to-Most推理策略,通过问题分解显著提升复杂问答表现。评估脚本可直接调用GitHub仓库的标准化接口,支持中韩双语自动评分与错误类型分析(数值错误、细节缺失等)。
背景与挑战
背景概述
CReSt(A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents)是由Upstage AI的研究团队于2025年提出的一个综合性基准测试数据集,旨在评估大型语言模型(LLMs)在检索增强生成(RAG)场景中的复杂推理能力。该数据集包含2,245个人工标注的英文和韩文示例,覆盖了结构化文档(如HTML和纯文本)的复杂推理任务。CReSt的创建填补了现有基准测试在评估模型多维度能力(如复杂推理、拒绝回答、精确引用和结构化文档理解)方面的空白,为RAG系统的研究和实际应用提供了重要的评估工具。
当前挑战
CReSt数据集面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的难度。在领域问题方面,CReSt旨在解决RAG场景中模型需要同时具备复杂推理、拒绝回答、精确引用和结构化文档理解能力的挑战,这对现有模型提出了极高的要求。在数据构建方面,挑战包括如何从真实文档中生成多样化的复杂推理问题,如何平衡英文和韩文数据的覆盖范围,以及如何确保人工标注的一致性和准确性。此外,数据集的构建还需要处理文档的多种格式(如HTML和纯文本),并设计合理的评估指标以全面衡量模型性能。
常用场景
经典使用场景
CReSt数据集专为评估检索增强生成(RAG)系统中大型语言模型(LLM)的复杂推理能力而设计。其经典使用场景包括多语言(英语和韩语)文档理解、结构化文本(HTML/纯文本)处理、以及结合拒绝回答机制的问答任务。研究者通过该数据集可系统性测试模型在真实文档场景下的综合表现,例如从法律合同或学术论文中提取并推理关键信息。
解决学术问题
CReSt解决了现有RAG评估中碎片化的问题,首次整合了复杂推理、引用准确性、拒绝回答能力和多格式文档理解四大核心维度。其2245个人工标注样本填补了学术界对模型在真实场景中综合能力评估的空白,尤其揭示了当前先进模型在跨语言(如韩语)和结构化文档(如HTML表格)处理中的显著缺陷,为改进模型提供了明确方向。
衍生相关工作
CReSt推动了多项RAG优化研究:1)基于其拒绝回答案例开发的置信度校准方法(如Chen等人2024);2)受多格式推理启发的混合模态架构(如Tan等人2025的HTML-RAG);3)针对韩语优化的知识检索框架(如Lyu等人2024的CRUD-RAG)。其评估指标还被UDA(Hui等人2024)等后续基准采纳为标准化测试协议。
以上内容由遇见数据集搜集并总结生成



