SWE-MERA
收藏arXiv2025-07-17 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/MERA-evaluation/SWE-MERA
下载链接
链接失效反馈官方服务:
资源简介:
SWE-MERA是一个动态更新的基准测试数据集,旨在评估大型语言模型在软件工程任务上的性能。它通过自动化收集GitHub上的真实世界问题和严格的验证流程来确保数据质量。数据集目前包含大约300个样本,并有望扩展到10,000个任务。SWE-MERA的设计旨在解决现有软件工程基准测试数据集的局限性,如数据泄露和基准测试饱和问题。它通过定期更新数据集,确保任务与软件开发的最新挑战保持相关性,并为模型提供公平的评价环境。
提供机构:
SberAI, ITMO University, MWS AI
创建时间:
2025-07-15
搜集汇总
数据集介绍

构建方式
在软件工程领域,动态评估大型语言模型的能力日益成为研究热点。SWE-MERA数据集通过自动化流程从GitHub收集真实问题,构建了一个动态更新的评测基准。该流程包含七个关键步骤:仓库筛选、PR-问题映射构建、元数据提取与过滤、补丁提取与验证、仓库构建验证、端到端任务执行以及基于LLM的流水线评估。每月执行一次的更新机制,确保了数据集始终反映最新的软件开发挑战。严格的过滤标准(如代码与测试文件需同时修改、PR修改文件数限制等)和基于Qwen3-32B模型的质量评估,有效保障了任务样本的可靠性与多样性。
特点
作为软件工程领域的评估工具,SWE-MERA展现出三大核心特征。动态更新机制通过每月采集GitHub上新出现的问题,从根本上解决了传统静态数据集的数据泄露和基准饱和问题。多维度质量把控体系融合了自动化验证(如Docker环境构建测试)与LLM智能评估(任务正确性、测试完备性等四项指标),确保每个任务兼具技术合理性和挑战性。真实场景还原度体现在严格遵循开源项目开发规范,所有任务均源自活跃Python仓库的实际问题,完整保留初始提交、修复提交和问题描述的三元组结构,为模型评估提供了高度拟真的软件维护场景。
使用方法
使用SWE-MERA进行模型评估需遵循标准化流程。研究者需从Hugging Face平台获取数据集最新版本,通过Docker或Conda环境复现任务执行场景。评估框架采用Aider代码代理系统,为每个问题提供6次尝试机会,支持基于测试输出的反射机制。性能度量包含pass@1(首次尝试成功率)和pass@6(六次尝试累计成功率)双指标,同时记录文件定位准确率、补丁生成有效性等过程数据。为促进研究透明性,平台提供交互式可视化界面,支持按时间维度分析模型表现,并设有规范化提交流程供社区贡献新模型的评估结果。
背景与挑战
背景概述
SWE-MERA是由SberAI、ITMO University和MWS AI等机构的研究团队于2025年推出的动态基准测试数据集,旨在解决大型语言模型(LLM)在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub上的真实问题并进行严格的质量验证,构建了一个包含约10,000个潜在任务的数据集,目前已公开300个样本。SWE-MERA的核心研究问题是提升软件工程任务评估的真实性和动态性,其创新性在于通过持续更新的数据收集机制,避免了传统静态数据集(如SWE-bench)中的数据泄漏和过时问题,显著提升了模型评估的可靠性和领域适应性。
当前挑战
SWE-MERA面临的挑战主要集中在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,软件工程任务的复杂性远超传统代码生成,需解决多文件编辑、测试覆盖、问题定位等综合能力评估,而现有基准测试常因任务描述模糊或测试用例不足导致评估失真。构建过程中的挑战包括:1) 数据污染风险控制,需通过七阶段流水线严格过滤GitHub问题中的直接解决方案泄漏;2) 动态更新机制的技术实现,需平衡任务新鲜度与评估一致性;3) 多维度质量验证,依赖LLM自动评估任务正确性、测试完备性等指标,可能引入评估偏差。此外,还需解决跨编程语言支持、恶意代码检测等工程难题。
常用场景
经典使用场景
在软件工程领域,SWE-MERA数据集主要用于评估大型语言模型(LLMs)在解决真实世界GitHub问题中的表现。其经典使用场景包括自动化代码修复、多文件编辑和软件工程任务解决。通过动态收集最新的GitHub问题和拉取请求,SWE-MERA能够模拟真实的开发环境,为研究者提供一个不断更新的测试平台。
实际应用
在实际应用中,SWE-MERA数据集被广泛用于开发和优化代码生成与修复工具。例如,企业可以利用该数据集训练和评估其内部代码助手,以提升开发效率。此外,教育机构也可借助该数据集设计课程项目,帮助学生掌握现代软件工程实践。
衍生相关工作
SWE-MERA的推出激发了多项相关研究,如MultiSWE-bench(多语言扩展)和SWE-Gym(自动任务生成)。这些工作进一步丰富了软件工程基准测试的多样性和可扩展性。同时,SWE-MERA的动态更新机制也为其他领域的基准测试设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成



