BrainBench

github2026-05-05 更新2026-05-19 收录

下载链接：

https://github.com/dhasson04/brainbench

下载链接

链接失效反馈

官方服务：

资源简介：

BrainBench是一个用于评估代理在私有markdown语料库中通过文件系统工具导航的基准数据集。该数据集包含一个虚构的B2B法律科技初创公司（Acme AI，约15人，成立于2025年）的366个markdown文件，模拟真实实体（如人员、公司、项目、决策、会议、概念）和交叉引用，用于测试知识库导航能力，包括多跳问题和隐性知识查询。

BrainBench is a benchmark dataset for evaluating agents' ability to navigate using file system tools within a private markdown corpus. This dataset contains 366 markdown files representing a fictional B2B legal technology startup (Acme AI, approximately 15 employees, founded in 2025), which models real-world entities such as people, companies, projects, decisions, meetings and concepts, as well as cross-references, and is designed to test knowledge base navigation capabilities including multi-hop questions and implicit knowledge queries.

创建时间：

2026-05-01

原始信息汇总

BrainBench 数据集概述

基本信息

数据集名称: BrainBench
版本: v0.2.0
创建者: Daniel Hasson
链接: https://github.com/dhasson04/brainbench
许可证: MIT

核心定位

BrainBench 是一个评估智能体在私有 Markdown 语料库中通过文件系统工具进行导航的能力的基准测试。它专注于测试基于知识库产品（如 Glean、Notion AI、Mem、Obsidian Copilot）中实际运行的模式。

与其他基准测试的对比

评估	语料库	智能体？	多跳？
NIAH / RULER	合成长上下文	❌ 只读模式	❌ 单一事实
LongBench	Wikipedia/法律文档	❌ 只读模式	✅
GAIA	网络	✅ 浏览器工具	✅
τ-bench	客服流程	✅ 工具使用	❌ 对话
SWE-bench	代码仓库	✅ 文件系统	✅ 针对代码
BrainBench	私有 Markdown 库	✅ 文件系统	✅ 针对散文

基线表现 (v0.2.0)

使用 claude-haiku-4-5（智能体）和 claude-sonnet-4-6（裁判）：

类别	得分
总计	31 / 40 (77.5%)
Medium	19 / 20
Hard	12 / 20
最佳区分度 (haiku 0/3)	矛盾层级
捕获的幻觉	quill not chartered, second CSM, EU residency

数据集结构

brainbench/ ├── corpus/ # 366 个 Markdown 文件 │ ├── people/ # 10 个核心员工 │ ├── companies/ # 5 个核心客户/投资者/竞争对手 │ ├── projects/ # 5 个项目 │ ├── decisions/ # 约 34 个 ADR（架构和业务决策） │ ├── meetings/ # 约 107 个会议记录 │ ├── concepts/ # 5 个交叉概念页面 │ ├── style/ # 4 个语音指南 │ ├── AGENTS.md # 智能体的导航地图 │ └── RESOLVER.md # 消歧规则 ├── seed/ # 生成输入 ├── scripts/ # 生成器和验证器 ├── lib/ # 实体解析器和存储层 ├── bench/ # 任务和评分工具 │ ├── tasks.jsonl # 5 个示例任务 │ ├── harness.ts # 执行引擎 │ ├── grader.ts # 评分器 │ ├── types.ts # 智能体接口 │ └── tools/ # Bash, Grep, Glob, Read 工具 └── examples/ # 参考实现

语料库说明

模拟虚构的 B2B 法律科技初创公司 "Acme AI"（约 15 人，成立于 2025 年）
包含真实感的实体（人员、项目、客户、决策）、交叉引用、时间序列故事线以及隐性知识问题
共 366 个 Markdown 文件
每个文件包含：头部元数据（名称、类型、描述、创建时间、更新时间、来源）、内容分两层（Compiled Truth + Timeline）

任务类型与评分方法

任务类别

single-hop（单跳）
multi-hop（多跳）
negation（否定）
temporal（时间）

评分方法

facts — 答案中必须出现所有预期的事实字符串（不区分大小写）
files — 智能体必须读取至少一个预期的文件
judge — LLM 根据预期答案对回答进行评判（适用于散文/否定类任务）

使用方式

运行基准测试

bash bun install export ANTHROPIC_API_KEY=sk-ant-... bun run bench/harness.ts --agent examples/claude-agent.ts --tasks bench/tasks.jsonl --corpus corpus

接入自己的 LLM

编写一个默认导出 Agent 函数的文件，实现 Agent 接口，使用 BrainStorage 和提供的四个工具（Bash/Grep/Glob/Read）。

添加自己的任务

使用 JSONL 格式，每行一个任务，指定 id、tier、question、grade 方法和相应的评分参数。

路线图

v0.1.0（当前）— 仓库框架、工具、5 个示例任务、参考 Claude 智能体
v1.0 — 50 个任务套件、Claude/GPT/Gemini 基线得分
v2.0 — 增加写入/分类/冲突/压缩任务层级（扩展计划）

自行生成语料库

使用 scripts/generator/ 目录下的生成器
基于少量锚点实体 + 每类型模板 + 每类型提示词
默认使用 Claude API，可通过 LlmClient 接口指向任何 LLM

引用

bibtex @misc{brainbench2026, author = {Hasson, Daniel}, title = {BrainBench: An eval for agents navigating a private markdown corpus}, year = {2026}, url = {https://github.com/dhasson04/brainbench} }

搜集汇总

数据集介绍

构建方式

BrainBench 数据集精心构建了一个虚构的 B2B 法律科技初创公司（“Acme AI”，约15人，成立于2025年）的私有 Markdown 语料库，旨在模拟真实世界知识库的复杂性。语料包含366个遵循严格架构的 Markdown 文件，覆盖人物、公司、项目、会议记录、决策记录和概念页面。每个文件采用双层结构，上层为“编译真相”以提供当前状态的综合摘要，下层为时间线以记载历史事件，如此设计使得智能体能够根据需求选择性地读取信息。此外，数据集通过 LLM 驱动的生成器，基于少量锚点实体和模板，可扩展地生成确定性内容，确保了语料的内在一致性与领域相关性的平衡。

特点

该数据集的核心特点在于填补了现有评估基准的空白，专门测试智能体在仅能通过文件系统原语（如读取、搜索、遍历）来探索私有散文语料库时的能力。与评估网络搜索的 GAIA 或代码库导航的 SWE-bench 不同，BrainBench 聚焦于“第二大脑”或企业知识库场景，问题要求跨文件进行多跳推理，并涵盖事实检索、否定辨别、时间序列理解和单跳查询等多种能力层级。其独特的评分系统综合了事实匹配、文件访问验证和 LLM 裁判评判，能够有效检测智能体的幻觉问题，例如模型错误声称不存在的融资轮次。

使用方法

使用 BrainBench 评估智能体极为便捷。用户只需克隆仓库，通过 Bun 包管理器安装依赖，并设置 LLM API 密钥。运行评估时，通过命令行指定智能体实现文件（如参考的 Claude 智能体）、测试任务 JSONL 文件和语料库路径即可获得详细的逐题评分和分类汇总。该框架是模型无关的，用户可通过实现预定义的 Agent 接口，轻松接入任何其他 LLM 模型，并可利用提供的 Bash、Grep、Glob 和 Read 工具与沙箱化的语料库交互。此外，用户还可通过简单的 JSONL 格式添加自定义任务，从而扩展评估范围以适应特定需求。

背景与挑战

背景概述

在人工智能与知识管理深度融合的浪潮中，如何让智能代理高效地导航和检索私有文本文档库，成为赋能“第二大脑”、企业知识库和笔记类产品的核心难题。现有评测基准如GAIA聚焦于网页浏览，SWE-bench侧重于代码仓库，均未能覆盖这一重要场景。为此，Daniel Hasson于2026年发布了BrainBench数据集，旨在评估代理通过文件系统原语（如grep、glob）在私有Markdown语料库中回答复杂问题的能力。该数据集包含366个文件，模拟了一个拥有15人的B2B法律科技初创公司，并设置了20个中等及20个高难度的校准任务，涵盖单跳、多跳、否定和时间推理等能力层级，为相关领域研究提供了标准化的衡量标尺。

当前挑战

BrainBench面临的挑战主要体现在两方面。其一，领域核心问题在于代理需要从不断变化且难以整体索引的私有语料库中，通过工具调用完成跨文件的信息缝合与推理，这对模型的多跳推理能力和幻觉控制提出了严苛要求，例如基线评测中Agent在否定任务上表现薄弱，错误地断言了不存在的B轮融资事件。其二，数据集构建过程中，需要生成具有真实感的实体关系、时间线故事和默会知识问题，确保任务的区分度，同时设计包含事实匹配、文件读取与LLM评判的多准则评分体系来应对开放问答的歧义性，这要求语料生成与任务设计具备高度严谨性。

常用场景

经典使用场景

在个人知识库与组织知识库蓬勃发展的当下，诸如Obsidian、Notion AI等产品虽能存储海量非结构化文本，却缺乏衡量AI代理在私有Markdown语料库中自主导航能力标准。BrainBench填补了这一空白，其核心使用场景为：评估一个仅能通过文件系统原语（如Grep、Glob、Read）访问私有散文语料的AI代理，能否在无法全量塞入上下文、且语料持续变动的条件下，完成跨文件的信息缝合与复杂多跳推理任务。

衍生相关工作

BrainBench的设计理念催生了多条有价值的研究脉络。其一，基于其“Compiled Truth与Timeline”双层文本结构的工作，推动了分层上下文读取策略的优化，使代理可在廉价快照与完整历史回溯间灵活切换。其二，其多标准评分体系（facts / files / LLM-judge）启发了更具鲁棒性的自动评估框架。其三，未来v2.0规划中的写操作层（写入、编辑、冲突解决、压缩）将引领面向语料变异场景的“维护型代理”评估，为第二代知识库智能体奠定评测基础。

数据集最近研究