Bright-Pro
收藏数据集概述:Bright-Pro
Bright-Pro 是一个面向推理密集型检索(reasoning-intensive retrieval)的专家标注基准数据集,是对 BRIGHT 基准的扩展。其核心创新在于:为每个查询提供多方面的推理分解(multi-aspect reasoning decomposition)、每个方面的加权重要性分数,以及按方面组织的精标黄金段落集,从而支持细粒度分析——评估检索器是否覆盖了回答查询所需的互补推理方面,而不仅仅是找出一个相关段落。
数据集构建方法
- 推理分解:标注者将每个查询的信息需求分解为多个推理方面(reasoning aspects)。
- 重要性赋权:为每个方面分配重要性权重(Likert 1-3 级)。
- 黄金段落审计与扩充:重新审核并整合 BRIGHT 原有的正面段落,同时收集新的、基于方面的正面段落。
- 专家复核:由同领域的第二位标注者对结果进行再次审查。
数据集规模与统计
数据集覆盖 7 个 StackExchange 领域,包含 739 个查询、2,763 个推理方面 和 5,272 个黄金段落,文档语料库总计 526,319 篇文档。
| 任务 (Task) | 查询数 (Queries) | 方面数 (Aspects) | 黄金文档数 (Gold docs) | 语料库文档数 (Corpus docs) |
|---|---|---|---|---|
| biology | 103 | 406 | 804 | 59,513 |
| earth_science | 115 | 440 | 856 | 123,575 |
| economics | 99 | 367 | 773 | 52,240 |
| psychology | 100 | 384 | 707 | 54,741 |
| robotics | 101 | 375 | 623 | 63,920 |
| stackoverflow | 115 | 382 | 529 | 109,188 |
| sustainable_living | 106 | 409 | 980 | 63,142 |
| 总计 (Total) | 739 | 2,763 | 5,272 | 526,319 |
数据集配置(Configurations)
Bright-Pro 包含三种配置,每种配置均有 7 个拆分(split),对应不同的 StackExchange 领域。
1. examples — 查询级标注
id(int):任务内查询 ID。query(string):自然语言查询(直接来自 BRIGHT StackExchange)。gold_ids(list[string]):该查询的所有正面文档 ID(来自任何方面)。reference_answer(string):基于各方面生成的参考长答案,其中包含指向黄金文档的[doc_N]引用。
2. aspects — 推理方面标注
id(string):方面 ID,格式为{task}-{qid}-a{k}。content(string):推理方面的自然语言描述。weight(int):原始 Likert 权重,取值 ∈ {1, 2, 3}(1=次要,2=重要,3=关键)。可按查询归一化为概率(权重之和为 1)。supporting_docs(list[string]):支持该方面的文档 ID(即文档到方面的反向映射)。
3. documents — 语料库
id(string):文档 ID,格式为{task}-{qid}/extraction_{k}.txt。content(string):文档文本(经过清洗和分段处理)。
快速使用示例
python from datasets import load_dataset
按任务加载(支持7个SE领域中的任意一个)
examples = load_dataset("yale-nlp/Bright-Pro", "examples", split="biology") aspects = load_dataset("yale-nlp/Bright-Pro", "aspects", split="biology") docs = load_dataset("yale-nlp/Bright-Pro", "documents", split="biology")
print(examples[0]["query"]) print(aspects[0]["content"], aspects[0]["weight"]) print(docs[0]["content"][:200])
评估方法
Bright-Pro 支持两种互补的评估方案:
-
静态检索(Static Retrieval):检索器对每个任务的语料库进行一次排序。主要指标为 α-nDCG@k(α=0.5),基于方面加权的黄金文档集,辅以 Aspect-Recall@k、NDCG@k 和 Recall@k。该指标鼓励覆盖互补的方面,而非从单一方面过度检索。
-
智能体检索(Agentic Retrieval):将检索器接入一个 LLM 智能体,智能体通过迭代发出搜索查询并综合最终答案。智能体循环在两种协议下评估:
- 固定轮次(Fixed-round):规定交互轮数(R ∈ {1, 2, 3},每轮 top-5),通过累积 α-nDCG@5R、推理完整性和答案质量衡量检索器质量。
- 自适应轮次(Adaptive-round):智能体自行决定何时停止。通过效率-质量奖励(AER) 评估,即
OQ × exp(−γ (R−1)),其中 γ=0.05。
推理完整性和整体质量由 LLM 作为评判者,根据由标注方面及其支持段落构建的参考答案进行评分。
与 BRIGHT 的区别
Bright-Pro 保留了 BRIGHT 的查询和语料库 URL,但对黄金标注侧进行了扩展:
- 推理方面(Aspects):每个查询被分解为 2-6 个推理方面,并带有 Likert 重要性权重(BRIGHT 无此项)。
- 基于方面的黄金文档:重新审核了 BRIGHT 原有的正面段落(部分仅主题相关的被移除),并从实时网络中收集了新的、与方面相关的段落。每个黄金文档严格关联到一个方面。
- 参考答案(Reference answers):每个查询都有一个带引用的长答案,用于驱动 LLM 评判评估。
- 范围(Scope):Bright-Pro 仅覆盖 BRIGHT 中的 7 个 StackExchange 领域,排除了 Coding(LeetCode, Pony)和 Theorem(AOPS, TheoremQA)子集,因为后者依赖于语法或形式逻辑匹配,而非开放领域的自然语言推理。
许可协议
数据集采用 MIT 许可证 发布。底层 StackExchange 查询和 BRIGHT 语料库保留其原始许可,上游归属信息请查阅 BRIGHT 数据集卡片。




