Bright-Pro

Name: Bright-Pro
Creator: Yale NLP Lab
Published: 2026-04-30 10:20:40
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-01 收录

下载链接：

https://huggingface.co/datasets/yale-nlp/Bright-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

Bright-Pro是一个专家标注的数据集，扩展自BRIGHT基准测试，专注于推理密集型检索任务。该数据集通过将每个查询与多方面的推理分解、重要性权重评分以及按方面组织的精选黄金段落配对，支持对检索器是否覆盖查询所需互补推理方面的细粒度分析。Bright-Pro包含7个StackExchange领域的739个查询，共计2,763个推理方面和5,272个黄金段落，这些段落来自一个包含526,319个文档的统一语料库。数据集提供三种配置：`examples`（查询级注释）、`aspects`（推理方面注释）和`documents`（语料库），每种配置都包含七个领域的分割。Bright-Pro支持静态检索和代理检索两种评估机制，并提供了详细的评估指标和方法。数据集在MIT许可下发布，但底层StackExchange查询和BRIGHT语料库保留其原始许可。

Bright-Pro is an expert-annotated dataset extended from the BRIGHT benchmark, focusing on reasoning-intensive retrieval tasks. The dataset supports fine-grained analysis of whether retrievers cover the complementary reasoning aspects required by queries by pairing each query with multi-faceted reasoning decompositions, importance weight scores, and curated gold passages organized by aspect. Bright-Pro contains 739 queries from 7 StackExchange domains, totaling 2,763 reasoning aspects and 5,272 gold passages sourced from a unified corpus of 526,319 documents. The dataset offers three configurations: `examples` (query-level annotations), `aspects` (reasoning aspect annotations), and `documents` (corpus), each containing splits for seven domains. Bright-Pro supports both static and agent-based retrieval evaluation mechanisms and provides detailed evaluation metrics and methods. The dataset is released under the MIT license, while the underlying StackExchange queries and BRIGHT corpus retain their original licenses.

提供机构：

Yale NLP Lab

创建时间：

2026-04-30

原始信息汇总

数据集概述：Bright-Pro

Bright-Pro 是一个面向推理密集型检索（reasoning-intensive retrieval）的专家标注基准数据集，是对 BRIGHT 基准的扩展。其核心创新在于：为每个查询提供多方面的推理分解（multi-aspect reasoning decomposition）、每个方面的加权重要性分数，以及按方面组织的精标黄金段落集，从而支持细粒度分析——评估检索器是否覆盖了回答查询所需的互补推理方面，而不仅仅是找出一个相关段落。

数据集构建方法

推理分解：标注者将每个查询的信息需求分解为多个推理方面（reasoning aspects）。
重要性赋权：为每个方面分配重要性权重（Likert 1-3 级）。
黄金段落审计与扩充：重新审核并整合 BRIGHT 原有的正面段落，同时收集新的、基于方面的正面段落。
专家复核：由同领域的第二位标注者对结果进行再次审查。

数据集规模与统计

数据集覆盖 7 个 StackExchange 领域，包含 739 个查询、2,763 个推理方面 和 5,272 个黄金段落，文档语料库总计 526,319 篇文档。

任务 (Task)	查询数 (Queries)	方面数 (Aspects)	黄金文档数 (Gold docs)	语料库文档数 (Corpus docs)
biology	103	406	804	59,513
earth_science	115	440	856	123,575
economics	99	367	773	52,240
psychology	100	384	707	54,741
robotics	101	375	623	63,920
stackoverflow	115	382	529	109,188
sustainable_living	106	409	980	63,142
总计 (Total)	739	2,763	5,272	526,319

数据集配置（Configurations）

Bright-Pro 包含三种配置，每种配置均有 7 个拆分（split），对应不同的 StackExchange 领域。

1. `examples` — 查询级标注

id (int)：任务内查询 ID。
query (string)：自然语言查询（直接来自 BRIGHT StackExchange）。
gold_ids (list[string])：该查询的所有正面文档 ID（来自任何方面）。
reference_answer (string)：基于各方面生成的参考长答案，其中包含指向黄金文档的 [doc_N] 引用。

2. `aspects` — 推理方面标注

id (string)：方面 ID，格式为 {task}-{qid}-a{k}。
content (string)：推理方面的自然语言描述。
weight (int)：原始 Likert 权重，取值 ∈ {1, 2, 3}（1=次要，2=重要，3=关键）。可按查询归一化为概率（权重之和为 1）。
supporting_docs (list[string])：支持该方面的文档 ID（即文档到方面的反向映射）。

3. `documents` — 语料库

id (string)：文档 ID，格式为 {task}-{qid}/extraction_{k}.txt。
content (string)：文档文本（经过清洗和分段处理）。

快速使用示例

python from datasets import load_dataset

按任务加载（支持7个SE领域中的任意一个）

examples = load_dataset("yale-nlp/Bright-Pro", "examples", split="biology") aspects = load_dataset("yale-nlp/Bright-Pro", "aspects", split="biology") docs = load_dataset("yale-nlp/Bright-Pro", "documents", split="biology")

print(examples[0]["query"]) print(aspects[0]["content"], aspects[0]["weight"]) print(docs[0]["content"][:200])

评估方法

Bright-Pro 支持两种互补的评估方案：

静态检索（Static Retrieval）：检索器对每个任务的语料库进行一次排序。主要指标为 α-nDCG@k（α=0.5），基于方面加权的黄金文档集，辅以 Aspect-Recall@k、NDCG@k 和 Recall@k。该指标鼓励覆盖互补的方面，而非从单一方面过度检索。
智能体检索（Agentic Retrieval）：将检索器接入一个 LLM 智能体，智能体通过迭代发出搜索查询并综合最终答案。智能体循环在两种协议下评估：
- 固定轮次（Fixed-round）：规定交互轮数（R ∈ {1, 2, 3}，每轮 top-5），通过累积 α-nDCG@5R、推理完整性和答案质量衡量检索器质量。
- 自适应轮次（Adaptive-round）：智能体自行决定何时停止。通过效率-质量奖励（AER） 评估，即 OQ × exp(−γ (R−1))，其中 γ=0.05。

推理完整性和整体质量由 LLM 作为评判者，根据由标注方面及其支持段落构建的参考答案进行评分。

与 BRIGHT 的区别

Bright-Pro 保留了 BRIGHT 的查询和语料库 URL，但对黄金标注侧进行了扩展：

推理方面（Aspects）：每个查询被分解为 2-6 个推理方面，并带有 Likert 重要性权重（BRIGHT 无此项）。
基于方面的黄金文档：重新审核了 BRIGHT 原有的正面段落（部分仅主题相关的被移除），并从实时网络中收集了新的、与方面相关的段落。每个黄金文档严格关联到一个方面。
参考答案（Reference answers）：每个查询都有一个带引用的长答案，用于驱动 LLM 评判评估。
范围（Scope）：Bright-Pro 仅覆盖 BRIGHT 中的 7 个 StackExchange 领域，排除了 Coding（LeetCode, Pony）和 Theorem（AOPS, TheoremQA）子集，因为后者依赖于语法或形式逻辑匹配，而非开放领域的自然语言推理。

许可协议

数据集采用 MIT 许可证发布。底层 StackExchange 查询和 BRIGHT 语料库保留其原始许可，上游归属信息请查阅 BRIGHT 数据集卡片。

搜集汇总

数据集介绍

构建方式

Bright-Pro是面向推理密集型检索任务的高质量基准扩展数据集，在BRIGHT数据集的七个StackExchange领域之上，经由领域专家进行多阶段精细标注构建而成。每一查询均被解构为多个互补的推理方面，并分配1至3级的重要性权重，确保对信息需求的层次性刻画。标注过程包括：将原始查询拆解为推理层面、赋予权重、复审并整合BRIGHT原有的正例文档、针对每个层面从网络中收集新的正例，并由第二位同领域专家进行交叉验证，从而保证了标注的科学性与可靠性。

特点

Bright-Pro涵盖739条查询，包含2,763个推理层面与5,272个细粒度标注的正例文档，语料库规模达526,319篇。其最显著的特点在于引入了基于层面的细粒度评估机制，每一正例文档均归属于唯一推理层面，打破了传统检索中仅关注单一相关文档的局限。数据集同时提供了基于层面权重的参考答案，支持静态检索与智能体检索两种互补评估范式，能够全面衡量检索器对查询中互补推理要素的覆盖能力，而不仅仅是浅层的主题匹配。

使用方法

Bright-Pro提供三种配置格式以适配不同研究需求：'examples'配置包含查询原文、所有正例文档ID及带引用的参考答案；'aspects'配置呈现每个推理层面的描述、权重及其支撑文档映射；'documents'配置则为清洗后的语料库文本。用户可通过HuggingFace Datasets库按领域分片加载数据，并利用内置的权重归一化方法获得每个层面的概率化重要性分布。评估时推荐采用α-nDCG@k与Aspect-Recall@k作为主要指标，亦可结合大模型裁判对智能体检索的推理完备性与答案质量进行自动评分。

背景与挑战

背景概述

信息检索领域长期以来依赖于关键词匹配与语义相似度度量，然而在面临需要多步推理与多源知识整合的复杂查询时，传统检索范式往往捉襟见肘。Bright-Pro数据集由耶鲁大学自然语言处理团队于2025年创建，旨在填补推理密集型检索基准的空白。该数据集以BRIGHT基准的七个StackExchange子集为基石，通过专家注释将每一条自然语言查询分解为2至6个互补的推理方面，并赋予其重要性权重，从而构建起一套精细化的多维度标注体系。核心研究问题在于：如何评估检索系统是否真正理解并覆盖查询所需的互补性推理要素，而非仅仅返回单一相关段落。Bright-Pro的出现为信息检索社区提供了一个从孤立的文档匹配走向多方面推理覆盖的评估范式，其影响已拓展至检索增强生成与智能体检索等前沿方向。

当前挑战

Bright-Pro所解决的核心领域挑战在于，传统检索基准如TREC或MS MARCO主要聚焦于单一相关性的判定，无法捕捉复杂查询中多方面推理需求的层次结构与互补性。为此，数据集构建过程中面临多重困难：首先，专家需要在不破坏查询自然语境的前提下，精准识别并解耦其蕴含的不同推理维度，并确保各方面之间逻辑独立且覆盖完整。其次，原始BRIGHT基准中的正例文档需经过严格重审，剔除仅凭主题相关而缺乏实质推理贡献的样本，同时从实时网络中重新采集与各推理方面严格对应的黄金段落，这一过程对标注者专业领域知识要求极高。此外，跨领域的一致性保障、权重分配的客观性以及七个子集间统计平衡的维持，均为构建高质量推理检索基准增添了显著挑战。

常用场景

经典使用场景

在自然语言处理与信息检索的交汇地带，Bright-Pro凭借其对推理密集型检索任务的精细标注，成为评估检索模型多维度推理能力的黄金标杆。该数据集将每个查询拆解为2至6个互补的推理侧面，并赋予每个侧面1至3级重要性权重，使得研究者能够超越传统单文档匹配的局限，深入分析检索系统是否覆盖了回答复杂问题所需的全部关键信息维度。这一设计尤其适用于需要多步推理的学术问答、专业领域知识获取以及跨学科信息整合等场景，为衡量检索器在语义理解与逻辑连贯性上的表现提供了前所未有的细粒度评估框架。

实际应用

实际应用中，Bright-Pro所定义的推理密集型检索范式已渗透至多个前沿领域。在专业问答系统中，例如生物学或地球科学的知识服务平台，模型需同时检索实验方法、理论背景与数据分析等多侧面信息，Bright-Pro的评估逻辑可直接用于优化检索策略的全面性。在智能客服与故障排查场景中，如机器人技术或StackOverflow的技术支持，该数据集可指导系统构建能识别问题背后多重因果链的检索模块。此外，可持续生活等跨学科咨询场景也受益于其多侧面分析能力，使得检索结果能够兼顾技术可行性、环境影响与社会经济因素，提升决策支持的深度与可靠性。

衍生相关工作

Bright-Pro的诞生催生了一系列富有影响力的相关工作。其前身BRIGHT基准为推理检索奠定了初步基础，而Bright-Pro通过专家标注的推理侧面与重要性权重，进一步衍生出多侧面检索评估（MSR）框架，启发研究者开发了如Aspect-Recall、α-nDCG等新型评价指标。基于该数据集的智能体检索研究推动了固定轮次与自适应轮次两种评估协议的发展，其中效率-质量奖励（AER）机制被后续工作广泛采纳。此外，该数据集所倡导的“推理互补性”概念已延伸至多跳问答、对话检索与知识图谱推理等方向，成为连接信息检索与大语言模型推理能力的重要桥梁，持续赋能检索增强生成（RAG）技术的迭代与突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集