five

HERB

收藏
arXiv2025-06-29 更新2025-07-02 收录
下载链接:
https://github.com/SalesforceAIResearch/HERB https://huggingface.co/datasets/Salesforce/HERB
下载链接
链接失效反馈
官方服务:
资源简介:
HERB(Heterogeneous Enterprise RAG Benchmark)是一个新的基准数据集,用于评估深度搜索,这是一种需要跨多种相关源进行源感知、多跳推理的检索增强生成(RAG)。数据集包含文档、会议记录、Slack消息、GitHub和URL等不同结构的数据,通常包含人与人之间的互动。数据集是通过模拟业务流程创建的,包括产品规划、开发和客户支持等阶段,生成具有现实噪声和保证有真实答案的多跳问题。数据集包含39,190个企业工件,支持细粒度的评估长上下文LLM和RAG系统。

HERB (Heterogeneous Enterprise RAG Benchmark) is a novel benchmark dataset for evaluating deep search, a type of Retrieval-Augmented Generation (RAG) that requires source-aware, multi-hop reasoning across multiple relevant sources. The dataset contains heterogeneously structured data including documents, meeting transcripts, Slack messages, GitHub resources, and URLs, which typically involve inter-personal interactions. It is constructed by simulating business workflows covering stages such as product planning, development, and customer support, generating multi-hop questions with realistic noise and guaranteed ground-truth answers. The dataset includes 39,190 enterprise artifacts, enabling fine-grained evaluation of long-context LLMs and RAG systems.
提供机构:
Salesforce AI Research
创建时间:
2025-06-29
搜集汇总
数据集介绍
main_image_url
构建方式
HERB数据集的构建采用了基于企业工作流的合成数据生成方法,通过模拟软件产品生命周期的三个阶段(规划、开发和部署)来创建多样化的企业数据。研究团队首先收集了关于内容、人员、工件和客户的常见企业查询,然后利用大型语言模型(LLM)生成与这些查询相关的上下文数据。数据生成过程包括设计九个工作流,每个工作流模拟不同的企业活动模式,并生成包括Slack消息、会议记录、GitHub拉取请求等在内的39,190个数据工件。此外,数据集还包含815个可回答查询和699个不可回答查询,以支持全面的评估。
特点
HERB数据集的特点在于其高度异构性和真实性,涵盖了多种结构化与非结构化数据源,如文档、会议记录、Slack消息和GitHub内容。数据集中的查询设计反映了真实企业环境中复杂的多跳推理需求,要求模型能够跨数据源进行深度搜索和推理。此外,数据集中引入了现实噪声和干扰内容,模拟了企业数据中常见的信息重叠和部分信息缺失情况,进一步提升了评估的挑战性。
使用方法
HERB数据集主要用于评估检索增强生成(RAG)系统和长上下文推理能力。在使用时,研究人员可以将数据集中的查询输入到RAG系统中,系统需要从异构数据源中检索相关信息并生成准确回答。数据集支持两种评估模式:全检索模式(从整个数据集中检索证据)和产品特定模式(仅从与特定产品相关的数据中检索)。此外,数据集还提供了不可回答查询,用于评估模型识别缺失信息的能力。评估指标包括基于Likert量表的内容查询评分和基于精确匹配的其他查询F1分数。
背景与挑战
背景概述
HERB(Heterogeneous Enterprise RAG Benchmark)是由Salesforce AI Research团队于2025年提出的一个新型基准数据集,旨在评估深度搜索(Deep Search)任务中的检索增强生成(RAG)系统性能。该数据集模拟了企业环境中常见的多源异构数据,包括文档、会议记录、Slack消息、GitHub提交和URL等多种形式的数据,覆盖了产品规划、开发和部署等全生命周期阶段。HERB通过合成数据管道生成高度逼真的企业工作流,包含39,190个企业数据样本和1,514个查询(815个可回答查询和699个不可回答查询),为评估长上下文语言模型和RAG系统提供了细粒度的测试平台。该数据集的推出填补了现有RAG基准在真实企业场景和多跳推理能力评估上的空白,对推动企业级知识检索和问答系统的研究具有重要意义。
当前挑战
HERB数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,HERB旨在解决企业环境中复杂的多源异构数据检索和推理问题,这要求系统能够进行跨文档、跨模态的深度搜索和上下文感知的多跳推理。现有RAG方法在该数据集上表现不佳(最佳性能仅为32.96分),凸显出在异构企业数据中进行有效检索和推理的困难。在构建过程中,研究人员面临模拟真实企业工作流的挑战,包括设计自然的多跳问题、确保数据间的真实关联性,以及引入适当的噪声和干扰项以反映真实企业环境的复杂性。此外,数据合成过程需要平衡真实性和可扩展性,既要保证生成数据的质量,又要控制人工标注的成本。这些挑战使得HERB成为评估RAG系统在企业场景中实际性能的严格测试平台。
常用场景
经典使用场景
在复杂的企业环境中,HERB数据集被广泛应用于评估检索增强生成(RAG)系统的性能。该数据集模拟了企业工作流程中的多样化数据源,包括文档、会议记录、Slack消息和GitHub提交等,为研究多跳推理和异构数据检索提供了理想的测试平台。通过构建真实的业务场景,HERB能够有效检验RAG系统在跨源信息整合和深度检索方面的能力。
解决学术问题
HERB数据集解决了当前多跳RAG评估中存在的关键问题,如文档间弱连接和人工生成的浅层问题。通过引入真实企业环境中的复杂查询和异构数据,该数据集为研究深度检索和多源推理提供了标准化基准。其意义在于填补了现有评估方法的空白,推动了RAG系统在复杂信息检索场景下的技术进步。
衍生相关工作
围绕HERB数据集,研究者们开展了一系列相关探索。在方法层面,出现了基于图结构的检索增强技术(如GraphRAG)和混合检索策略(如Hybrid RAG)等创新方法。在评估框架方面,衍生出了针对长上下文推理能力的专项测试和代理式RAG系统的性能分析。这些工作共同推动了企业级信息检索技术的理论发展和实践应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作