HWE-bench

github2026-04-26 更新2026-04-27 收录

下载链接：

https://github.com/pku-liang/hwe-bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估编码代理在RTL/硬件bug修复任务上的基准。HWE-bench收集了来自6个开源硬件项目（ibex、cva6、caliptra、rocket-chip、XiangShan、OpenTitan）的417个真实bug修复案例，涵盖Verilog、SystemVerilog和Chisel。每个案例都通过模拟（从失败到通过）进行了端到端的验证：包含的测试在错误提交时失败，修复后通过。

A benchmark for evaluating coding AI Agents on RTL/hardware bug fixing tasks. HWE-bench collects 417 real-world bug fixing cases from six open-source hardware projects: ibex, cva6, caliptra, rocket-chip, XiangShan, and OpenTitan, covering hardware description languages including Verilog, SystemVerilog, and Chisel. Each case has been end-to-end validated via simulation: the included test suites fail when the bug is present, and pass after the fix is applied.

创建时间：

2026-04-23

原始信息汇总

HWE-bench 数据集概述

HWE-bench 是一个用于评估编码智能体在 RTL/硬件 bug 修复任务 上性能的基准测试集。该数据集从 6 个开源硬件项目 中精心挑选了 417 个真实 bug 修复案例，覆盖 Verilog、SystemVerilog 和 Chisel 三种硬件描述语言。每个案例都通过端到端仿真验证（fail-to-pass 模式：有 bug 的提交无法通过测试，修复后通过）。

数据集构成

数据来源

数据来源于以下 6 个开源硬件项目：

项目名称	组织/社区
ibex	lowRISC
cva6	OpenHW Group
caliptra-rtl	CHIPS Alliance
rocket-chip	CHIPS Alliance
XiangShan	OpenXiangShan
OpenTitan	lowRISC

数据集文件

所有 JSONL 格式的数据集托管在 HuggingFace 上（https://huggingface.co/datasets/henryen/hwe-bench），具体文件包括：

项目特定文件：
- datasets/lowRISC__ibex.jsonl（ibex 项目，35 个案例，最小子集）
- datasets/openhwgroup__cva6.jsonl
- datasets/chipsalliance__caliptra-rtl.jsonl
- datasets/chipsalliance__rocket-chip.jsonl
- datasets/OpenXiangShan__XiangShan.jsonl
- datasets/lowRISC__opentitan.jsonl
完整基准文件：datasets/hwe_bench_full.jsonl（包含全部 417 个案例）

评估流程

HWE-bench 的评估流程分为四个主要步骤：

生成任务目录：使用 adapter 将数据集 JSONL 文件转换为 Harbor 任务目录
运行智能体：支持多种编码智能体（如 Codex CLI、Claude Code、Kimi CLI、OpenHands 等），每个案例运行 2 次（-r 2），默认设置下并发 4 个容器
提取补丁：从 Harbor 运行输出中提取智能体生成的补丁文件
评分：使用 evaluator 对补丁进行评估，生成聚合报告

支持的智能体

智能体	所需凭据变量
Claude Code	`CLAUDE_CODE_OAUTH_TOKEN`
Codex CLI	`CODEX_AUTH_JSON_PATH`
Kimi CLI	`KIMI_API_KEY`
OpenHands SDK	`LLM_API_KEY`

评估结果

截至 2026-04-26，基准测试结果更新了三个新模型的得分：

Kimi K2.6：66.9%（使用 Kimi CLI 评估）
DeepSeek V4 Pro：60.6%（使用 Claude Code 评估，1M 上下文窗口，最大思考努力）
DeepSeek V4 Flash：58.3%（使用 Claude Code 评估，1M 上下文窗口，最大思考努力）

详细的按仓库分解和分析请参考配套论文（https://arxiv.org/abs/2604.14709）。

仓库结构

hwe_bench/ collect/ # s01-s08: GitHub PR收集和过滤 harness/ base.py # 核心类型定义 docker_runner.py # Docker镜像构建和f2p验证 evaluator.py # 离线补丁评分 reporting.py # 报告聚合 harbor/ # Harbor适配器 tbgen/ # s09: 测试台生成 verify/ # s10: Docker验证 psgen/ # s11: 问题陈述生成 audit/ # 轨迹审计 repos/ # 各仓库的测试框架 deps/ harbor/ # Harbor框架（git子树） datasets/ # JSONL数据集（单独下载） tasks/ # Harbor任务目录（由适配器生成） jobs/ # Harbor运行输出 results/ # 补丁和评估结果 docs/ # 扩展文档

技术细节

验证方式：每个案例通过仿真进行 fail-to-pass 端到端验证（有 bug 的提交测试失败，修复后测试通过）
Docker 镜像：每个 PR 的 Docker 镜像发布在 ghcr.io/pku-liang，OpenTitan 需要本地构建（依赖 Synopsys VCS）
存储需求：已发布的非 OpenTitan 镜像集约需 200 GB 磁盘空间（ibex 单独约 10 GB）
许可证：Apache 2.0

搜集汇总

数据集介绍

构建方式

在硬件设计领域，随着芯片复杂度的激增，RTL级缺陷的修复已成为验证流程中最具挑战性的环节。HWE-bench数据集正是为解决这一痛点而生，它精心构建了包含417个真实世界硬件缺陷修复案例的基准测试集，覆盖Verilog、SystemVerilog和Chisel三种硬件描述语言。该数据集从ibex、cva6、caliptra、rocket-chip、XiangShan和OpenTitan这六个广受关注的开源硬件项目中，通过自动化GitHub PR收集与严格筛选流程（s01–s08阶段），提取出经过端到端模拟验证的缺陷修复实例。每个案例均采用失败转通过的模拟验证范式：在缺陷提交版本上测试失败，而在修复提交版本中测试通过，从而确保每个案例的语义正确性和可复现性。数据集以JSONL格式托管于HuggingFace平台，并配套提供每个PR级别的Docker镜像，极大简化了评估环境的搭建流程。

特点

HWE-bench数据集呈现出多个显著特征。其一，它聚焦于硬件描述语言领域，填补了当前大语言模型评估基准中RTL缺陷修复任务的空间，与主流软件缺陷基准形成差异化互补。其二，数据集包含417个真实案例，来源于多个成熟硬件开源项目，代表性极强，覆盖从轻量级嵌入式核心（如ibex）到高性能处理器（如XiangShan、rocket-chip）乃至复杂安全芯片（如OpenTitan）的广泛谱系。其三，每个案例都经过严格的模拟验证，确保缺陷与修复的因果链清晰可靠，而非简单的语法或格式错误。其四，数据集的构建流程高度可扩展，支持添加新的硬件仓库并自动化生成评估任务，适应不同粒度的缺陷修复需求。其五，数据集提供了丰富的附属资源，包括预构建Docker镜像、详尽的评估脚本和可复现的参考结果，保证了评估的公平性和可比较性。

使用方法

利用HWE-bench数据集进行评测时，遵循一个清晰的四阶段流水线。首先通过适配器将JSONL格式的案例数据转换为Harbor框架可执行的评测任务目录；接着使用所选的代码智能体（如Claude Code、Codex CLI、Kimi CLI或OpenHands SDK）在隔离的Docker环境中运行任务，每个PR案例拥有独立的镜像以确保环境一致性；然后通过验证桥接模块提取智能体生成的补丁文件；最终由评估器模块在测试环境中对补丁进行失败转通过模拟验证，并生成包含聚合得分与逐案例报告的最终报告。整个流程支持并发执行以缩短总耗时（全部417案例约需一天），并内置了中间结果断点恢复机制。用户只需依次执行若干命令行指令，即可完成从环境搭建到结果汇总的完整评测周期，大幅降低了在硬件缺陷修复领域应用大语言模型的评估门槛。

背景与挑战

背景概述

在硬件设计领域，随着集成电路复杂度的急剧攀升，硬件缺陷的定位与修复已成为制约开发效率的关键瓶颈。HWE-bench数据集由北京大学梁云团队于2026年创建，旨在系统评估大语言模型在寄存器传输级（RTL）硬件错误修复任务上的能力。该数据集从ibex、cva6、caliptra、rocket-chip、XiangShan及OpenTitan六个开源硬件项目中精挑细选出417个真实世界错误修复案例，覆盖Verilog、SystemVerilog和Chisel三种主流硬件描述语言。每个案例均通过端到端的仿真验证，确保测试用例在错误提交上失败、在修复提交后通过，从而构成了首个严谨且全面的硬件错误修复基准测试。HWE-bench的出现填补了软件领域广泛存在的修复基准与硬件领域之间的鸿沟，为评估和推动代码智能体在硬件上下文中的表现提供了标准化平台。

当前挑战

硬件错误修复面临的核心挑战在于RTL代码的独特性质：不同于软件程序，硬件设计并行执行且对时序敏感，错误可能源于逻辑错误、时序违规或协议违例，增加了定位与修复的复杂性。构建HWE-bench的过程中，团队需从开源仓库的海量提交历史中精准识别与RTL错误相关的修复提交，确保每个案例的缺陷真实且可复现。此外，为每个案例构建独立的Docker化仿真环境以验证fail-to-pass条件，涉及复杂的工具链配置（如Synopsys VCS、Verilator），尤其是OpenTitan等大型项目需要本地许可与编译资源。数据集的跨语言覆盖（Verilog、SystemVerilog、Chisel）要求统一的评估范式，而不同项目的构建系统与仿真框架差异进一步加剧了标准化难度。

常用场景

经典使用场景

在硬件设计验证领域，HWE-bench数据集为评估代码生成模型在硬件错误修复任务中的表现提供了标准化的测试框架。该数据集精选自ibex、cva6、rocket-chip等六个开源硬件项目中的417个真实bug修复案例，覆盖Verilog、SystemVerilog和Chisel三种硬件描述语言。每个案例均通过端到端仿真验证，确保测试案例在错误提交上失败而在修复提交上通过。研究者通常利用该数据集对LLM驱动的编程代理进行基准测试，通过构建包含buggy代码和对应测试用例的任务环境，评估模型生成正确补丁的能力。这种fail-to-pass的验证机制不仅保证了评测的客观性，还复现了硬件工程师日常调试的真实工作流，使得评估结果具有高度的实践参考价值。

衍生相关工作

自HWE-bench发布以来，已催生出多项具有影响力的衍生研究工作。其中，基于该基准的评测结果推动了对硬件专用代理架构的深入探索，研究者提出了针对Chisel等高级硬件语言的语义感知补丁生成策略。部分工作借鉴了HWE-bench的数据构建流程，扩展出面向FPGA设计验证的跨语言bug修复数据集，进一步丰富了硬件领域的评测生态。此外，在LLM训练策略方面，出现了利用HWE-bench中fail-to-pass验证机制进行强化学习奖励建模的研究，通过模拟硬件仿真反馈来提升模型生成正确补丁的几率。这些衍生工作不仅验证了HWE-bench作为评测基石的可靠性，更将其影响力从单纯的能力评估拓展至方法创新与模型优化的多个维度。

数据集最近研究