SWE-MERA
收藏arXiv2025-07-17 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/MERA-evaluation/SWE-MERA
下载链接
链接失效反馈官方服务:
资源简介:
SWE-MERA是一个动态更新的基准测试数据集,旨在评估大型语言模型在软件工程任务上的性能。它通过自动化收集GitHub上的真实世界问题和严格的验证流程来确保数据质量。数据集目前包含大约300个样本,并有望扩展到10,000个任务。SWE-MERA的设计旨在解决现有软件工程基准测试数据集的局限性,如数据泄露和基准测试饱和问题。它通过定期更新数据集,确保任务与软件开发的最新挑战保持相关性,并为模型提供公平的评价环境。
SWE-MERA is a dynamically updated benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) on software engineering tasks. It ensures data quality by automatically collecting real-world issues from GitHub and implementing rigorous validation procedures. Currently, the dataset contains approximately 300 samples, with the potential to scale up to 10,000 tasks. SWE-MERA is designed to address the limitations of existing software engineering benchmark datasets, such as data leakage and benchmark saturation. It ensures that tasks remain relevant to the latest challenges in software development by regularly updating the dataset, while also providing a fair evaluation environment for models.
提供机构:
SberAI, ITMO University, MWS AI
创建时间:
2025-07-15
搜集汇总
数据集介绍

构建方式
在软件工程领域,动态评估大型语言模型的能力日益成为研究热点。SWE-MERA数据集通过自动化流程从GitHub收集真实问题,构建了一个动态更新的评测基准。该流程包含七个关键步骤:仓库筛选、PR-问题映射构建、元数据提取与过滤、补丁提取与验证、仓库构建验证、端到端任务执行以及基于LLM的流水线评估。每月执行一次的更新机制,确保了数据集始终反映最新的软件开发挑战。严格的过滤标准(如代码与测试文件需同时修改、PR修改文件数限制等)和基于Qwen3-32B模型的质量评估,有效保障了任务样本的可靠性与多样性。
特点
作为软件工程领域的评估工具,SWE-MERA展现出三大核心特征。动态更新机制通过每月采集GitHub上新出现的问题,从根本上解决了传统静态数据集的数据泄露和基准饱和问题。多维度质量把控体系融合了自动化验证(如Docker环境构建测试)与LLM智能评估(任务正确性、测试完备性等四项指标),确保每个任务兼具技术合理性和挑战性。真实场景还原度体现在严格遵循开源项目开发规范,所有任务均源自活跃Python仓库的实际问题,完整保留初始提交、修复提交和问题描述的三元组结构,为模型评估提供了高度拟真的软件维护场景。
使用方法
使用SWE-MERA进行模型评估需遵循标准化流程。研究者需从Hugging Face平台获取数据集最新版本,通过Docker或Conda环境复现任务执行场景。评估框架采用Aider代码代理系统,为每个问题提供6次尝试机会,支持基于测试输出的反射机制。性能度量包含pass@1(首次尝试成功率)和pass@6(六次尝试累计成功率)双指标,同时记录文件定位准确率、补丁生成有效性等过程数据。为促进研究透明性,平台提供交互式可视化界面,支持按时间维度分析模型表现,并设有规范化提交流程供社区贡献新模型的评估结果。
背景与挑战
背景概述
SWE-MERA是由SberAI、ITMO University和MWS AI等机构的研究团队于2025年推出的动态基准测试数据集,旨在解决大型语言模型(LLM)在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub上的真实问题并进行严格的质量验证,构建了一个包含约10,000个潜在任务的数据集,目前已公开300个样本。SWE-MERA的核心研究问题是提升软件工程任务评估的真实性和动态性,其创新性在于通过持续更新的数据收集机制,避免了传统静态数据集(如SWE-bench)中的数据泄漏和过时问题,显著提升了模型评估的可靠性和领域适应性。
当前挑战
SWE-MERA面临的挑战主要集中在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,软件工程任务的复杂性远超传统代码生成,需解决多文件编辑、测试覆盖、问题定位等综合能力评估,而现有基准测试常因任务描述模糊或测试用例不足导致评估失真。构建过程中的挑战包括:1) 数据污染风险控制,需通过七阶段流水线严格过滤GitHub问题中的直接解决方案泄漏;2) 动态更新机制的技术实现,需平衡任务新鲜度与评估一致性;3) 多维度质量验证,依赖LLM自动评估任务正确性、测试完备性等指标,可能引入评估偏差。此外,还需解决跨编程语言支持、恶意代码检测等工程难题。
常用场景
经典使用场景
在软件工程领域,SWE-MERA数据集主要用于评估大型语言模型(LLMs)在解决真实世界GitHub问题中的表现。其经典使用场景包括自动化代码修复、多文件编辑和软件工程任务解决。通过动态收集最新的GitHub问题和拉取请求,SWE-MERA能够模拟真实的开发环境,为研究者提供一个不断更新的测试平台。
实际应用
在实际应用中,SWE-MERA数据集被广泛用于开发和优化代码生成与修复工具。例如,企业可以利用该数据集训练和评估其内部代码助手,以提升开发效率。此外,教育机构也可借助该数据集设计课程项目,帮助学生掌握现代软件工程实践。
衍生相关工作
SWE-MERA的推出激发了多项相关研究,如MultiSWE-bench(多语言扩展)和SWE-Gym(自动任务生成)。这些工作进一步丰富了软件工程基准测试的多样性和可扩展性。同时,SWE-MERA的动态更新机制也为其他领域的基准测试设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成



