AACR-Bench
收藏AACR-Bench 数据集概述
数据集简介
AACR-Bench 是一个多语言、仓库级上下文感知的自动化代码审查基准数据集,旨在评估大型语言模型在自动化代码审查任务中的性能。该数据集包含来自 50 个活跃开源项目的 200 个真实 Pull Requests,涵盖 10 种主流编程语言。每个实例不仅包含代码变更,还保留了完整的仓库上下文,真实复现了整个代码审查流程。通过人机协同审查和多轮专家标注,确保了数据的高质量和全面性。
主要应用
- 评估代码审查模型的问题检测能力
- 评估审查建议的质量和可行性
- 测试跨语言和跨项目的泛化能力
- 上下文感知能力的细粒度分析
核心特性
多语言覆盖
涵盖 10 种主流编程语言:Python, Java, JavaScript, TypeScript, Go, Rust, C++, C#, Ruby, PHP。
仓库级上下文
- 保留完整的项目结构和依赖信息
- 支持跨文件引用分析
人类专家与 LLM 增强标注
- 人类专家初步审查 + 系统性 LLM 补充
- 识别细微问题和潜在改进
- 多轮专家审查确保评论质量
综合评估指标
- 精确率:评论质量和行级定位准确性
- 召回率:问题发现的完整性
- 噪声率:无效评论识别
- 多维度分析:支持语言和问题类型统计
数据集概览
统计数据
| 指标 | 数量 |
|---|---|
| Pull Requests | 200 |
| 编程语言 | 10 |
| 来源项目 | 50 |
| 总审查评论数 | 2145 |
数据格式
数据格式为 JSON 数组,每个项目包含以下关键字段:
change_line_count:修改行数project_main_language:项目主要语言source_commit:源提交哈希target_commit:目标提交哈希githubPrUrl:GitHub PR URLcomments:标注的审查评论数组,每个评论对象包含属性:is_ai_comment:是否为 AI 评论note:英文审查评论path:文件路径side:评论位置source_model:来源模型from_line:起始行号to_line:结束行号category:评论类别context:评论范围
评估指标
采用多维度的指标系统全面评估代码审查模型的性能。
核心指标
| 指标 | 描述 | 公式 |
|---|---|---|
| 精确率 | 模型生成的有效评论比例 | 有效匹配 / 总生成数 |
| 召回率 | 发现数据集中问题的能力 | 有效匹配 / 数据集中有效数 |
| 行精确率 | 精确定位代码行的能力 | 行匹配 / 总生成数 |
| 噪声率 | 无效或错误评论的比例 | 未匹配 / 总生成数 |
许可证
本项目采用 Apache License 2.0 许可证。详细信息请参阅 LICENSE 文件。
引用
若在研究中使用了 AACR-Bench,请引用论文:
@article{liu2026aacrbench, title={AACR-Bench: A Multi-lingual Repository-level Context-aware Automated Code Review Benchmark}, author={Li, Zhengfeng and Zhang, Lei and Yu, Yongda and Guo, Xinxin and Yu, Minghui and Zhuang, Zhengqi}, journal={arXiv preprint arXiv:2026.xxxxx}, year={2026}, url={https://arxiv.org/abs/2026.xxxxx} }
路线图
- [x] v1.0 (2026.01):初始版本 - 200 个 PRs,10 种语言




