SWE-CARE

github2025-10-21 更新2025-11-07 收录

下载链接：

https://github.com/inclusionAI/SWE-CARE

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-CARE是一个用于代码审查评估的综合性基准数据集，专注于Python语言。该数据集包含九种类型，每个实例的信息涵盖代码审查的完整过程，并包含仓库级特征。该数据集旨在评估大型语言模型在全面代码审查中的性能表现。

SWE-CARE is a comprehensive benchmark dataset for code review evaluation, focused on the Python programming language. This dataset includes nine categories, where each instance contains information covering the full code review workflow and repository-level features. This dataset is designed to evaluate the performance of large language models (LLMs) in comprehensive code review tasks.

创建时间：

2025-10-10

原始信息汇总

SWE-CARE 数据集概述

数据集基本信息

数据集名称: SWE-CARE
主要用途: 代码审查评估的全面性感知基准
编程语言: Python
许可证: Apache License

数据集特点

全面性: 针对现有代码审查基准缺乏全面性的问题而构建
类别划分: 数据集实例分为九种类型
完整流程: 每个实例信息覆盖代码审查全过程
仓库级特征: 包含仓库级别的特征信息

数据收集流程

数据来源

从GitHub收集数据
使用GitHub GraphQL API获取拉取请求数据

处理步骤

获取顶级仓库
获取拉取请求数据
分类PR数据
- 提交评估（基于启发式规则）
- 审查评论分类（基于引用行是否在合并提交中实际更改）
构建代码审查数据集
- 使用LLM分类元数据（问题域、难度、审查工作量）

数据集应用

评估框架

设计用于评估LLM在代码审查中的性能
支持多种文件来源策略：
- none（无文件上下文）
- oracle（真实文件）
- bm25（基于检索的文件）
- all（所有可用文件）

评估方法

LLM评估器: 基于多个维度评估代码审查质量（功能性、质量、风格、文档）
基于规则的评估器: 从审查文本中提取缺陷并与参考缺陷比较

技术实现

支持模型

OpenAI GPT系列
Anthropic Claude系列
DeepSeek
Qwen
Moonshot
Gemini

数据处理工具

使用Pyserini进行BM25检索（需要Java 21）
支持并行处理
提供完整的评估流水线脚本

数据集获取

HuggingFace地址: https://huggingface.co/datasets/inclusionAI/SWE-CARE
技术报告: https://arxiv.org/pdf/2509.14856

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码审查作为保障代码质量的关键环节，其数据集的构建需兼顾真实性与全面性。SWE-CARE数据集通过系统化流程从GitHub平台采集数据，首先筛选高星级的Python代码库，利用GitHub GraphQL API提取拉取请求信息。随后采用启发式规则对提交记录进行评估，结合大语言模型对问题领域、难度及审查工作量进行元数据标注，最终构建出涵盖完整代码审查流程的实例集合。

特点

该数据集在代码审查研究领域具有显著优势，其核心特征体现在多层次的结构设计上。每个实例不仅包含代码变更的完整轨迹，还整合了仓库级别的上下文信息，形成九大分类体系以覆盖不同的审查场景。数据集特别强调全面性，通过真实开发环境中的拉取请求数据，精准捕捉代码审查过程中的动态交互，为评估大语言模型的审查能力提供了丰富而可靠的基准。

使用方法

针对代码审查任务的评估需求，该数据集提供了标准化的使用流程。研究人员可通过配置不同的文件来源策略生成文本数据集，包括无上下文、真实文件检索及基于BM25算法的相关文件筛选等方式。借助模块化的推理框架，用户能够调用多种大语言模型生成审查意见，并通过规则评估器或LLM评估器对预测结果进行多维度量化分析，最终形成综合性能报告。

背景与挑战

背景概述

代码审查作为软件工程中保障代码质量的核心环节，长期依赖人工经验进行缺陷识别与改进建议。随着大语言模型技术的突破，自动化代码审查成为可能。SWE-CARE数据集由inclusionAI团队于2024年构建，聚焦于解决现有代码审查基准在全面性方面的不足。该数据集基于Python语言构建，涵盖九类审查场景，完整记录代码审查全流程信息并集成仓库级特征，为评估大语言模型在代码审查任务中的表现提供了标准化基准。

当前挑战

在领域问题层面，传统代码审查基准缺乏对多维度审查要素的系统覆盖，难以模拟真实开发场景中涉及的架构规范、安全漏洞等复杂问题。构建过程中面临双重挑战：一是需要从GitHub海量提交记录中精准提取包含有效审查交互的数据，二是需设计兼顾代码变更上下文与仓库级依赖关系的标注体系，这对数据清洗与语义对齐提出了极高要求。

常用场景

经典使用场景

在软件工程领域，代码审查作为保障代码质量的核心环节，SWE-CARE数据集通过涵盖九大分类的实例数据，为大规模语言模型在代码审查任务中的性能评估提供了标准化基准。该数据集整合了完整的代码审查流程信息与仓库级上下文特征，使研究者能够系统性地测试模型在真实开发场景下的审查能力，尤其适用于评估模型对代码缺陷检测、风格规范检查等关键任务的综合表现。

衍生相关工作

基于该数据集衍生的经典研究包括多模态代码审查评估范式的创新，如结合规则引擎与LLM评估器的混合评价体系。其构建的奖励模型训练样本推动了代码审查质量量化指标的发展，后续研究进一步拓展了跨语言审查迁移、动态上下文检索等方向，为构建端到端的智能代码审查生态系统奠定了理论基础。

数据集最近研究