SWE-MERA
收藏arXiv2025-07-15 更新2025-07-17 收录
下载链接:
https://a-ai.ru
下载链接
链接失效反馈官方服务:
资源简介:
SWE-MERA是一个动态更新的基准数据集,用于评估大型语言模型在软件工程任务中的表现。该数据集由真实世界中的GitHub问题组成,并通过自动化的方式收集和验证,以确保数据的真实性和质量。目前,数据集包含大约300个样本,但预计将扩展到10,000个任务。SWE-MERA旨在解决现有基准数据集中存在的问题,例如数据泄露和基准饱和。数据集创建过程包括七个阶段的流水线,以确保数据的质量和减少污染风险。SWE-MERA适用于评估代码生成、代码推理和代码修复等软件工程任务,并已被用于评估多种最新的LLM模型。
提供机构:
SberAI, ITMO University, MWS AI
创建时间:
2025-07-15
搜集汇总
数据集介绍
构建方式
在软件工程领域,动态评估大型语言模型的能力已成为研究热点。SWE-MERA采用七阶段自动化流程构建数据集,首先基于星标和活跃度筛选GitHub仓库,随后建立PR-Issue映射关系并提取元数据。通过严格的补丁验证和容器化构建测试,确保任务质量,最终采用Qwen3-32B模型进行四项指标评估,保留综合评分前75%的任务。该流程每月自动更新,目前已收集300个经严格验证的任务样本。
特点
该数据集最显著的特征在于其动态更新机制,有效解决了传统静态基准的数据泄露和过时问题。任务均来自真实GitHub问题,包含完整的问题描述、测试用例和修复补丁,确保评估场景的真实性。通过LLM驱动的质量评估系统,数据集在任务正确性、测试覆盖度等维度保持高标准,同时保留不同难度级别的任务以全面评估模型能力。其容器化执行环境设计保障了任务的可复现性。
使用方法
研究人员可通过Hugging Face平台获取数据集,使用Docker容器或Conda环境复现评估流程。评估采用Aider编码代理框架,为每个任务提供六次尝试机会,记录首次成功率(pass@1)和累计成功率(pass@6)两个关键指标。平台提供交互式可视化界面,支持按时间维度分析模型表现,并设有动态排行榜机制。用户可通过提交Pull Request参与公开评测,系统将在48小时内验证并更新结果。
背景与挑战
背景概述
SWE-MERA是由SberAI、ITMO University和MWS AI的研究团队于2025年推出的动态基准测试数据集,旨在解决大型语言模型(LLMs)在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub真实问题并实施严格的质量验证,构建了一个包含约10,000个潜在任务的动态更新库,目前公开300个样本。其创新性体现在采用七阶段处理流程,有效规避了传统静态数据集(如SWEbench)存在的数据污染和测试用例不足等问题,为AI辅助编程领域提供了更可靠的评估标准。
当前挑战
该数据集面临的核心挑战集中在两个维度:领域问题方面,需解决软件工程任务中代码补丁生成的多模态复杂性,包括跨文件上下文理解、回归测试覆盖率和动态环境适配等子问题;构建过程方面,需克服GitHub数据源的异构性(如非结构化issue描述)、自动化验证管道的可靠性(如Docker环境复现),以及防止解决方案在PR描述中泄露的污染风险。动态更新机制虽提升了数据新鲜度,但同步带来了任务质量波动和评估一致性的新挑战。
常用场景
经典使用场景
在软件工程领域,SWE-MERA数据集被广泛用于评估大型语言模型(LLMs)在解决真实世界GitHub问题上的能力。该数据集通过动态收集和更新GitHub上的问题和拉取请求,为研究者提供了一个不断进化的测试平台,以验证模型在代码修复、功能实现和问题定位等多方面的表现。
解决学术问题
SWE-MERA数据集解决了传统静态基准测试中的数据泄漏和过时问题。通过动态更新任务,该数据集确保了评估的公平性和时效性,同时减少了模型因记忆解决方案而导致的性能虚高。此外,其严格的验证流程和自动化评分系统显著提升了评估结果的可靠性,为软件工程领域的模型性能研究提供了坚实的数据基础。
衍生相关工作
SWE-MERA数据集衍生了一系列相关研究,例如基于其动态特性的扩展工作MultiSWE-bench,该研究将任务覆盖范围扩展到多种编程语言。此外,SWE-Gym和SWE-smith等研究通过自动任务生成和合成数据创建,进一步丰富了软件工程基准测试的多样性和规模。
以上内容由遇见数据集搜集并总结生成



