BrainBench
收藏BrainBench 数据集概述
基本信息
- 数据集名称: BrainBench
- 版本: v0.2.0
- 创建者: Daniel Hasson
- 链接: https://github.com/dhasson04/brainbench
- 许可证: MIT
核心定位
BrainBench 是一个评估智能体在私有 Markdown 语料库中通过文件系统工具进行导航的能力的基准测试。它专注于测试基于知识库产品(如 Glean、Notion AI、Mem、Obsidian Copilot)中实际运行的模式。
与其他基准测试的对比
| 评估 | 语料库 | 智能体? | 多跳? |
|---|---|---|---|
| NIAH / RULER | 合成长上下文 | ❌ 只读模式 | ❌ 单一事实 |
| LongBench | Wikipedia/法律文档 | ❌ 只读模式 | ✅ |
| GAIA | 网络 | ✅ 浏览器工具 | ✅ |
| τ-bench | 客服流程 | ✅ 工具使用 | ❌ 对话 |
| SWE-bench | 代码仓库 | ✅ 文件系统 | ✅ 针对代码 |
| BrainBench | 私有 Markdown 库 | ✅ 文件系统 | ✅ 针对散文 |
基线表现 (v0.2.0)
使用 claude-haiku-4-5(智能体)和 claude-sonnet-4-6(裁判):
| 类别 | 得分 |
|---|---|
| 总计 | 31 / 40 (77.5%) |
| Medium | 19 / 20 |
| Hard | 12 / 20 |
| 最佳区分度 (haiku 0/3) | 矛盾层级 |
| 捕获的幻觉 | quill not chartered, second CSM, EU residency |
数据集结构
brainbench/ ├── corpus/ # 366 个 Markdown 文件 │ ├── people/ # 10 个核心员工 │ ├── companies/ # 5 个核心客户/投资者/竞争对手 │ ├── projects/ # 5 个项目 │ ├── decisions/ # 约 34 个 ADR(架构和业务决策) │ ├── meetings/ # 约 107 个会议记录 │ ├── concepts/ # 5 个交叉概念页面 │ ├── style/ # 4 个语音指南 │ ├── AGENTS.md # 智能体的导航地图 │ └── RESOLVER.md # 消歧规则 ├── seed/ # 生成输入 ├── scripts/ # 生成器和验证器 ├── lib/ # 实体解析器和存储层 ├── bench/ # 任务和评分工具 │ ├── tasks.jsonl # 5 个示例任务 │ ├── harness.ts # 执行引擎 │ ├── grader.ts # 评分器 │ ├── types.ts # 智能体接口 │ └── tools/ # Bash, Grep, Glob, Read 工具 └── examples/ # 参考实现
语料库说明
- 模拟虚构的 B2B 法律科技初创公司 "Acme AI"(约 15 人,成立于 2025 年)
- 包含真实感的实体(人员、项目、客户、决策)、交叉引用、时间序列故事线以及隐性知识问题
- 共 366 个 Markdown 文件
- 每个文件包含:头部元数据(名称、类型、描述、创建时间、更新时间、来源)、内容分两层(Compiled Truth + Timeline)
任务类型与评分方法
任务类别
- single-hop(单跳)
- multi-hop(多跳)
- negation(否定)
- temporal(时间)
评分方法
facts— 答案中必须出现所有预期的事实字符串(不区分大小写)files— 智能体必须读取至少一个预期的文件judge— LLM 根据预期答案对回答进行评判(适用于散文/否定类任务)
使用方式
运行基准测试
bash bun install export ANTHROPIC_API_KEY=sk-ant-... bun run bench/harness.ts --agent examples/claude-agent.ts --tasks bench/tasks.jsonl --corpus corpus
接入自己的 LLM
编写一个默认导出 Agent 函数的文件,实现 Agent 接口,使用 BrainStorage 和提供的四个工具(Bash/Grep/Glob/Read)。
添加自己的任务
使用 JSONL 格式,每行一个任务,指定 id、tier、question、grade 方法和相应的评分参数。
路线图
- v0.1.0(当前)— 仓库框架、工具、5 个示例任务、参考 Claude 智能体
- v1.0 — 50 个任务套件、Claude/GPT/Gemini 基线得分
- v2.0 — 增加写入/分类/冲突/压缩任务层级(扩展计划)
自行生成语料库
- 使用
scripts/generator/目录下的生成器 - 基于少量锚点实体 + 每类型模板 + 每类型提示词
- 默认使用 Claude API,可通过
LlmClient接口指向任何 LLM
引用
bibtex @misc{brainbench2026, author = {Hasson, Daniel}, title = {BrainBench: An eval for agents navigating a private markdown corpus}, year = {2026}, url = {https://github.com/dhasson04/brainbench} }




