SWE-MERA

Name: SWE-MERA
Creator: SberAI, ITMO University, MWS AI
Published: 2025-07-17 22:04:07
License: 暂无描述

arXiv2025-07-17 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/MERA-evaluation/SWE-MERA

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-MERA是一个动态更新的基准测试数据集，旨在评估大型语言模型在软件工程任务上的性能。它通过自动化收集GitHub上的真实世界问题和严格的验证流程来确保数据质量。数据集目前包含大约300个样本，并有望扩展到10,000个任务。SWE-MERA的设计旨在解决现有软件工程基准测试数据集的局限性，如数据泄露和基准测试饱和问题。它通过定期更新数据集，确保任务与软件开发的最新挑战保持相关性，并为模型提供公平的评价环境。

提供机构：

SberAI, ITMO University, MWS AI

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

在软件工程领域，动态评估大型语言模型的能力日益成为研究热点。SWE-MERA数据集通过自动化流程从GitHub收集真实问题，构建了一个动态更新的评测基准。该流程包含七个关键步骤：仓库筛选、PR-问题映射构建、元数据提取与过滤、补丁提取与验证、仓库构建验证、端到端任务执行以及基于LLM的流水线评估。每月执行一次的更新机制，确保了数据集始终反映最新的软件开发挑战。严格的过滤标准（如代码与测试文件需同时修改、PR修改文件数限制等）和基于Qwen3-32B模型的质量评估，有效保障了任务样本的可靠性与多样性。

特点

作为软件工程领域的评估工具，SWE-MERA展现出三大核心特征。动态更新机制通过每月采集GitHub上新出现的问题，从根本上解决了传统静态数据集的数据泄露和基准饱和问题。多维度质量把控体系融合了自动化验证（如Docker环境构建测试）与LLM智能评估（任务正确性、测试完备性等四项指标），确保每个任务兼具技术合理性和挑战性。真实场景还原度体现在严格遵循开源项目开发规范，所有任务均源自活跃Python仓库的实际问题，完整保留初始提交、修复提交和问题描述的三元组结构，为模型评估提供了高度拟真的软件维护场景。

使用方法

使用SWE-MERA进行模型评估需遵循标准化流程。研究者需从Hugging Face平台获取数据集最新版本，通过Docker或Conda环境复现任务执行场景。评估框架采用Aider代码代理系统，为每个问题提供6次尝试机会，支持基于测试输出的反射机制。性能度量包含pass@1（首次尝试成功率）和pass@6（六次尝试累计成功率）双指标，同时记录文件定位准确率、补丁生成有效性等过程数据。为促进研究透明性，平台提供交互式可视化界面，支持按时间维度分析模型表现，并设有规范化提交流程供社区贡献新模型的评估结果。

背景与挑战

背景概述

SWE-MERA是由SberAI、ITMO University和MWS AI等机构的研究团队于2025年推出的动态基准测试数据集，旨在解决大型语言模型（LLM）在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub上的真实问题并进行严格的质量验证，构建了一个包含约10,000个潜在任务的数据集，目前已公开300个样本。SWE-MERA的核心研究问题是提升软件工程任务评估的真实性和动态性，其创新性在于通过持续更新的数据收集机制，避免了传统静态数据集（如SWE-bench）中的数据泄漏和过时问题，显著提升了模型评估的可靠性和领域适应性。

当前挑战

SWE-MERA面临的挑战主要集中在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，软件工程任务的复杂性远超传统代码生成，需解决多文件编辑、测试覆盖、问题定位等综合能力评估，而现有基准测试常因任务描述模糊或测试用例不足导致评估失真。构建过程中的挑战包括：1) 数据污染风险控制，需通过七阶段流水线严格过滤GitHub问题中的直接解决方案泄漏；2) 动态更新机制的技术实现，需平衡任务新鲜度与评估一致性；3) 多维度质量验证，依赖LLM自动评估任务正确性、测试完备性等指标，可能引入评估偏差。此外，还需解决跨编程语言支持、恶意代码检测等工程难题。

常用场景

经典使用场景

在软件工程领域，SWE-MERA数据集主要用于评估大型语言模型（LLMs）在解决真实世界GitHub问题中的表现。其经典使用场景包括自动化代码修复、多文件编辑和软件工程任务解决。通过动态收集最新的GitHub问题和拉取请求，SWE-MERA能够模拟真实的开发环境，为研究者提供一个不断更新的测试平台。

实际应用

在实际应用中，SWE-MERA数据集被广泛用于开发和优化代码生成与修复工具。例如，企业可以利用该数据集训练和评估其内部代码助手，以提升开发效率。此外，教育机构也可借助该数据集设计课程项目，帮助学生掌握现代软件工程实践。

衍生相关工作

SWE-MERA的推出激发了多项相关研究，如MultiSWE-bench（多语言扩展）和SWE-Gym（自动任务生成）。这些工作进一步丰富了软件工程基准测试的多样性和可扩展性。同时，SWE-MERA的动态更新机制也为其他领域的基准测试设计提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集