HERB

Name: HERB
Creator: Salesforce AI Research
Published: 2025-06-29 16:34:59
License: 暂无描述

arXiv2025-06-29 更新2025-07-02 收录

下载链接：

https://github.com/SalesforceAIResearch/HERB https://huggingface.co/datasets/Salesforce/HERB

下载链接

链接失效反馈

官方服务：

资源简介：

HERB（Heterogeneous Enterprise RAG Benchmark）是一个新的基准数据集，用于评估深度搜索，这是一种需要跨多种相关源进行源感知、多跳推理的检索增强生成（RAG）。数据集包含文档、会议记录、Slack消息、GitHub和URL等不同结构的数据，通常包含人与人之间的互动。数据集是通过模拟业务流程创建的，包括产品规划、开发和客户支持等阶段，生成具有现实噪声和保证有真实答案的多跳问题。数据集包含39,190个企业工件，支持细粒度的评估长上下文LLM和RAG系统。

HERB (Heterogeneous Enterprise RAG Benchmark) is a novel benchmark dataset for evaluating deep search, a type of Retrieval-Augmented Generation (RAG) that requires source-aware, multi-hop reasoning across multiple relevant sources. The dataset contains heterogeneously structured data including documents, meeting transcripts, Slack messages, GitHub resources, and URLs, which typically involve inter-personal interactions. It is constructed by simulating business workflows covering stages such as product planning, development, and customer support, generating multi-hop questions with realistic noise and guaranteed ground-truth answers. The dataset includes 39,190 enterprise artifacts, enabling fine-grained evaluation of long-context LLMs and RAG systems.

提供机构：

Salesforce AI Research

创建时间：

2025-06-29

搜集汇总

数据集介绍

构建方式

HERB数据集的构建采用了基于企业工作流的合成数据生成方法，通过模拟软件产品生命周期的三个阶段（规划、开发和部署）来创建多样化的企业数据。研究团队首先收集了关于内容、人员、工件和客户的常见企业查询，然后利用大型语言模型（LLM）生成与这些查询相关的上下文数据。数据生成过程包括设计九个工作流，每个工作流模拟不同的企业活动模式，并生成包括Slack消息、会议记录、GitHub拉取请求等在内的39,190个数据工件。此外，数据集还包含815个可回答查询和699个不可回答查询，以支持全面的评估。

特点

HERB数据集的特点在于其高度异构性和真实性，涵盖了多种结构化与非结构化数据源，如文档、会议记录、Slack消息和GitHub内容。数据集中的查询设计反映了真实企业环境中复杂的多跳推理需求，要求模型能够跨数据源进行深度搜索和推理。此外，数据集中引入了现实噪声和干扰内容，模拟了企业数据中常见的信息重叠和部分信息缺失情况，进一步提升了评估的挑战性。

使用方法

HERB数据集主要用于评估检索增强生成（RAG）系统和长上下文推理能力。在使用时，研究人员可以将数据集中的查询输入到RAG系统中，系统需要从异构数据源中检索相关信息并生成准确回答。数据集支持两种评估模式：全检索模式（从整个数据集中检索证据）和产品特定模式（仅从与特定产品相关的数据中检索）。此外，数据集还提供了不可回答查询，用于评估模型识别缺失信息的能力。评估指标包括基于Likert量表的内容查询评分和基于精确匹配的其他查询F1分数。

背景与挑战

背景概述

HERB（Heterogeneous Enterprise RAG Benchmark）是由Salesforce AI Research团队于2025年提出的一个新型基准数据集，旨在评估深度搜索（Deep Search）任务中的检索增强生成（RAG）系统性能。该数据集模拟了企业环境中常见的多源异构数据，包括文档、会议记录、Slack消息、GitHub提交和URL等多种形式的数据，覆盖了产品规划、开发和部署等全生命周期阶段。HERB通过合成数据管道生成高度逼真的企业工作流，包含39,190个企业数据样本和1,514个查询（815个可回答查询和699个不可回答查询），为评估长上下文语言模型和RAG系统提供了细粒度的测试平台。该数据集的推出填补了现有RAG基准在真实企业场景和多跳推理能力评估上的空白，对推动企业级知识检索和问答系统的研究具有重要意义。

当前挑战

HERB数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，HERB旨在解决企业环境中复杂的多源异构数据检索和推理问题，这要求系统能够进行跨文档、跨模态的深度搜索和上下文感知的多跳推理。现有RAG方法在该数据集上表现不佳（最佳性能仅为32.96分），凸显出在异构企业数据中进行有效检索和推理的困难。在构建过程中，研究人员面临模拟真实企业工作流的挑战，包括设计自然的多跳问题、确保数据间的真实关联性，以及引入适当的噪声和干扰项以反映真实企业环境的复杂性。此外，数据合成过程需要平衡真实性和可扩展性，既要保证生成数据的质量，又要控制人工标注的成本。这些挑战使得HERB成为评估RAG系统在企业场景中实际性能的严格测试平台。

常用场景

经典使用场景

在复杂的企业环境中，HERB数据集被广泛应用于评估检索增强生成（RAG）系统的性能。该数据集模拟了企业工作流程中的多样化数据源，包括文档、会议记录、Slack消息和GitHub提交等，为研究多跳推理和异构数据检索提供了理想的测试平台。通过构建真实的业务场景，HERB能够有效检验RAG系统在跨源信息整合和深度检索方面的能力。

解决学术问题

HERB数据集解决了当前多跳RAG评估中存在的关键问题，如文档间弱连接和人工生成的浅层问题。通过引入真实企业环境中的复杂查询和异构数据，该数据集为研究深度检索和多源推理提供了标准化基准。其意义在于填补了现有评估方法的空白，推动了RAG系统在复杂信息检索场景下的技术进步。

衍生相关工作

围绕HERB数据集，研究者们开展了一系列相关探索。在方法层面，出现了基于图结构的检索增强技术（如GraphRAG）和混合检索策略（如Hybrid RAG）等创新方法。在评估框架方面，衍生出了针对长上下文推理能力的专项测试和代理式RAG系统的性能分析。这些工作共同推动了企业级信息检索技术的理论发展和实践应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集