SWE-Compass
收藏github2025-12-04 更新2025-12-05 收录
下载链接:
https://github.com/kwaipilot/SWE-Compass
下载链接
链接失效反馈官方服务:
资源简介:
SWECompass建立了一个高覆盖、多维度和生产对齐的评估框架:覆盖8种软件工程任务类型、8种编程场景和10种编程语言;包含2000个来自真实GitHub pull请求的高质量实例;支持跨任务类型、语言和场景的多维性能比较。通过将异构代码任务与真实工程实践相结合,SWECompass为诊断和改善大型语言模型的软件工程能力提供了一个可重复、严格且面向生产的基准。
SWECompass establishes a high-coverage, multi-dimensional, production-aligned evaluation framework: it covers 8 types of software engineering tasks, 8 programming scenarios, and 10 programming languages; it contains 2,000 high-quality instances sourced from real GitHub pull requests; it supports multi-dimensional performance comparisons across task types, programming languages, and scenarios. By combining heterogeneous code tasks with real-world engineering practices, SWECompass provides a reproducible, rigorous, production-oriented benchmark for diagnosing and improving the software engineering capabilities of large language models (LLMs).
创建时间:
2025-12-03
原始信息汇总
SWE-Compass 数据集概述
数据集简介
SWE-Compass 是一个用于评估大语言模型软件工程代理能力的统一评估框架。它旨在解决当前评估中任务类别狭窄、偏向Python语言以及与真实开发流程脱节的问题。
核心特性
- 高覆盖性:涵盖8种软件工程任务类型、8种编程场景和10种编程语言。
- 真实数据源:包含2000个从真实GitHub拉取请求中获取的高质量实例。
- 多维度评估:支持跨任务类型、编程语言和场景的多维度性能比较。
- 生产环境对齐:通过集成异构代码任务与真实工程实践,提供一个可复现、严谨且面向生产的基准。
技术特征
- 基于Docker的自动化评估环境。
- 支持多项目、多任务、多语言。
- 支持模型生成补丁的执行与评估。
- 提供多维度性能指标。
- 可选集成LLM评判器用于代码理解任务。
- 高度可复现,专为研究和生产应用设计。
数据集获取与使用
数据集可通过Hugging Face平台获取:https://huggingface.co/datasets/Kwaipilot/SWE-Compass
评估流程
- 环境设置:安装Docker、Python 3.11及项目依赖。
- 数据准备:下载所需的Docker镜像和补充数据。
- 预测数据准备:准备包含
instance_id、模型补丁及元数据的JSON文件。 - 运行评估:使用提供的脚本和参数执行评估。
- 结果输出:评估结果将输出至指定目录,包含原始数据和聚合分数。
许可证
数据集采用Apache 2.0许可证。
相关论文
- 标题:SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models
- 预印本:arXiv:2511.05459
- 引用格式:参见README文件中的BibTeX条目。
贡献与联系
欢迎来自自然语言处理、机器学习和软件工程研究社区的贡献。可通过提交问题或拉取请求来扩展、评估或改进该基准。
主要联系人:
- Xujingxuan — xujingxuan2002@163.com
- Ken Deng — dengken@kuaishou.com
- Jiaheng Liu — liujiaheng@nju.edu.cn
搜集汇总
数据集介绍

构建方式
在软件工程领域,现有的大语言模型评估框架常受限于任务类型的单一性、编程语言的偏向性以及与真实开发流程的脱节。为弥合这些差距,SWE-Compass数据集通过精心设计,构建了一个覆盖广泛且贴近实际的高质量评估基准。其核心构建方式在于从真实的GitHub拉取请求中筛选并整理出2000个高质量实例,这些实例涵盖了8种软件工程任务类型、8种编程场景以及10种编程语言,确保了数据来源的多样性与现实代表性。整个构建过程注重数据的真实性与任务的异质性,旨在为模型评估提供一个坚实且可复现的基础。
使用方法
使用SWE-Compass数据集进行评估,需遵循一套系统化的操作流程。首先,用户需配置包含Docker和Python依赖的评估环境,并下载必要的镜像与补充数据。随后,按照指定格式准备模型预测的JSON文件,其中需包含实例ID、模型名称及生成的补丁。评估通过运行验证脚本启动,用户可指定数据集路径、预测文件、工作进程数及运行标识等参数,并可选择性地配置大语言模型评判者以辅助评估。执行后,系统将生成详细的工作日志与结构化结果文件,包括原始评估数据和按任务、语言、场景聚合的分数,便于研究者进行多维度的性能分析与比较。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,大型语言模型的代码生成与理解能力评估长期面临任务类型单一、编程语言偏向性以及脱离真实开发流程的局限。为应对这些挑战,SWE-Compass数据集于2025年由徐敬轩、邓肯等研究人员联合构建,其核心研究问题聚焦于如何系统评估大语言模型在多样化软件工程任务中的智能体编码能力。该数据集通过整合来自真实GitHub拉取请求的2000个高质量实例,覆盖8类软件工程任务、8种编程场景及10种编程语言,为学术界与工业界提供了一个可复现、多维度且贴近生产环境的基准测试框架,显著推动了智能编程助手与自动化软件工程工具的发展。
当前挑战
SWE-Compass旨在解决的领域挑战在于传统评估方法难以全面衡量大语言模型在复杂、异构的软件工程环境中的实际编码能力,特别是跨任务、跨语言与跨场景的泛化性能。在数据集构建过程中,研究者需克服多重困难:如何从海量开源代码仓库中筛选具有代表性且高质量的拉取请求实例;如何设计统一且可扩展的评估框架以兼容多种编程语言与任务类型;以及如何确保自动化评估环境在Docker容器中的稳定执行与结果可复现性。这些挑战共同塑造了数据集在严谨性与实用性上的平衡追求。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,SWE-Compass数据集为评估大型语言模型的代理编码能力提供了标准化基准。其经典使用场景集中于系统性地测试模型在多样化编程任务中的表现,涵盖代码修复、功能实现、重构等八类任务,并跨越十种编程语言与八种实际开发场景。研究者通过该数据集能够执行自动化评估,在受控的Docker环境中运行模型生成的代码补丁,从而客观衡量模型在真实软件开发流程中的适应性与准确性。
解决学术问题
该数据集有效解决了当前软件工程评估中存在的任务范围狭窄、Python语言偏向严重以及与真实工作流脱节等学术研究问题。通过整合来自GitHub真实拉取请求的两千个高质量实例,SWE-Compass构建了一个覆盖多维度、可复现的评估框架,使得研究者能够深入诊断模型在不同编程语言和工程场景下的能力差异。其意义在于推动了评估方法从单一任务向系统工程实践的转变,为理解与提升大语言模型的软件工程智能奠定了严谨的实证基础。
实际应用
在实际应用层面,SWE-Compass可直接服务于AI辅助开发工具的性能优化与选型评估。开发团队可利用该数据集对比不同大语言模型在特定编程语言或任务类型上的表现,从而为集成开发环境(IDE)插件、代码生成服务或自动化测试工具选择最合适的底层模型。此外,其生产导向的设计支持企业将评估流程嵌入持续集成管道,实现对模型代码产出质量与安全性的常态化监控,提升软件开发效率与可靠性。
数据集最近研究
最新研究方向
在软件工程智能化浪潮中,SWE-Compass数据集通过整合真实GitHub拉取请求构建的2000个高质量实例,为评估大语言模型的代理编码能力提供了多维度的统一框架。该数据集覆盖8种任务类型、8种编程场景及10种编程语言,突破了传统评估中Python中心化及任务单一的局限,紧密贴合实际开发流程。其前沿研究聚焦于构建可复现、生产导向的基准测试,通过自动化Docker环境支持多项目、多语言的代码补丁执行与评估,并引入LLM法官机制以增强代码理解任务的深度分析。这一进展不仅推动了智能编程助手在真实工程场景中的能力诊断与优化,也为软件工程与人工智能的交叉领域设立了严谨的评估标准,促进了面向生产的智能编码系统的迭代与发展。
以上内容由遇见数据集搜集并总结生成



