HWE-bench
收藏HWE-bench 数据集概述
HWE-bench 是一个用于评估编码智能体在 RTL/硬件 bug 修复任务 上性能的基准测试集。该数据集从 6 个开源硬件项目 中精心挑选了 417 个真实 bug 修复案例,覆盖 Verilog、SystemVerilog 和 Chisel 三种硬件描述语言。每个案例都通过端到端仿真验证(fail-to-pass 模式:有 bug 的提交无法通过测试,修复后通过)。
数据集构成
数据来源
数据来源于以下 6 个开源硬件项目:
| 项目名称 | 组织/社区 |
|---|---|
| ibex | lowRISC |
| cva6 | OpenHW Group |
| caliptra-rtl | CHIPS Alliance |
| rocket-chip | CHIPS Alliance |
| XiangShan | OpenXiangShan |
| OpenTitan | lowRISC |
数据集文件
所有 JSONL 格式的数据集托管在 HuggingFace 上(https://huggingface.co/datasets/henryen/hwe-bench),具体文件包括:
- 项目特定文件:
datasets/lowRISC__ibex.jsonl(ibex 项目,35 个案例,最小子集)datasets/openhwgroup__cva6.jsonldatasets/chipsalliance__caliptra-rtl.jsonldatasets/chipsalliance__rocket-chip.jsonldatasets/OpenXiangShan__XiangShan.jsonldatasets/lowRISC__opentitan.jsonl
- 完整基准文件:
datasets/hwe_bench_full.jsonl(包含全部 417 个案例)
评估流程
HWE-bench 的评估流程分为四个主要步骤:
- 生成任务目录:使用
adapter将数据集 JSONL 文件转换为 Harbor 任务目录 - 运行智能体:支持多种编码智能体(如 Codex CLI、Claude Code、Kimi CLI、OpenHands 等),每个案例运行 2 次(
-r 2),默认设置下并发 4 个容器 - 提取补丁:从 Harbor 运行输出中提取智能体生成的补丁文件
- 评分:使用
evaluator对补丁进行评估,生成聚合报告
支持的智能体
| 智能体 | 所需凭据变量 |
|---|---|
| Claude Code | CLAUDE_CODE_OAUTH_TOKEN |
| Codex CLI | CODEX_AUTH_JSON_PATH |
| Kimi CLI | KIMI_API_KEY |
| OpenHands SDK | LLM_API_KEY |
评估结果
截至 2026-04-26,基准测试结果更新了三个新模型的得分:
- Kimi K2.6:66.9%(使用 Kimi CLI 评估)
- DeepSeek V4 Pro:60.6%(使用 Claude Code 评估,1M 上下文窗口,最大思考努力)
- DeepSeek V4 Flash:58.3%(使用 Claude Code 评估,1M 上下文窗口,最大思考努力)
详细的按仓库分解和分析请参考配套论文(https://arxiv.org/abs/2604.14709)。
仓库结构
hwe_bench/ collect/ # s01-s08: GitHub PR收集和过滤 harness/ base.py # 核心类型定义 docker_runner.py # Docker镜像构建和f2p验证 evaluator.py # 离线补丁评分 reporting.py # 报告聚合 harbor/ # Harbor适配器 tbgen/ # s09: 测试台生成 verify/ # s10: Docker验证 psgen/ # s11: 问题陈述生成 audit/ # 轨迹审计 repos/ # 各仓库的测试框架 deps/ harbor/ # Harbor框架(git子树) datasets/ # JSONL数据集(单独下载) tasks/ # Harbor任务目录(由适配器生成) jobs/ # Harbor运行输出 results/ # 补丁和评估结果 docs/ # 扩展文档
技术细节
- 验证方式:每个案例通过仿真进行 fail-to-pass 端到端验证(有 bug 的提交测试失败,修复后测试通过)
- Docker 镜像:每个 PR 的 Docker 镜像发布在
ghcr.io/pku-liang,OpenTitan 需要本地构建(依赖 Synopsys VCS) - 存储需求:已发布的非 OpenTitan 镜像集约需 200 GB 磁盘空间(ibex 单独约 10 GB)
- 许可证:Apache 2.0




