SWE-MERA

Name: SWE-MERA
Creator: SberAI, ITMO University, MWS AI
Published: 2025-07-15 15:52:33
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://a-ai.ru

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-MERA是一个动态更新的基准数据集，用于评估大型语言模型在软件工程任务中的表现。该数据集由真实世界中的GitHub问题组成，并通过自动化的方式收集和验证，以确保数据的真实性和质量。目前，数据集包含大约300个样本，但预计将扩展到10,000个任务。SWE-MERA旨在解决现有基准数据集中存在的问题，例如数据泄露和基准饱和。数据集创建过程包括七个阶段的流水线，以确保数据的质量和减少污染风险。SWE-MERA适用于评估代码生成、代码推理和代码修复等软件工程任务，并已被用于评估多种最新的LLM模型。

提供机构：

SberAI, ITMO University, MWS AI

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

在软件工程领域，动态评估大型语言模型的能力已成为研究热点。SWE-MERA采用七阶段自动化流程构建数据集，首先基于星标和活跃度筛选GitHub仓库，随后建立PR-Issue映射关系并提取元数据。通过严格的补丁验证和容器化构建测试，确保任务质量，最终采用Qwen3-32B模型进行四项指标评估，保留综合评分前75%的任务。该流程每月自动更新，目前已收集300个经严格验证的任务样本。

特点

该数据集最显著的特征在于其动态更新机制，有效解决了传统静态基准的数据泄露和过时问题。任务均来自真实GitHub问题，包含完整的问题描述、测试用例和修复补丁，确保评估场景的真实性。通过LLM驱动的质量评估系统，数据集在任务正确性、测试覆盖度等维度保持高标准，同时保留不同难度级别的任务以全面评估模型能力。其容器化执行环境设计保障了任务的可复现性。

使用方法

研究人员可通过Hugging Face平台获取数据集，使用Docker容器或Conda环境复现评估流程。评估采用Aider编码代理框架，为每个任务提供六次尝试机会，记录首次成功率(pass@1)和累计成功率(pass@6)两个关键指标。平台提供交互式可视化界面，支持按时间维度分析模型表现，并设有动态排行榜机制。用户可通过提交Pull Request参与公开评测，系统将在48小时内验证并更新结果。

背景与挑战

背景概述

SWE-MERA是由SberAI、ITMO University和MWS AI的研究团队于2025年推出的动态基准测试数据集，旨在解决大型语言模型（LLMs）在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub真实问题并实施严格的质量验证，构建了一个包含约10,000个潜在任务的动态更新库，目前公开300个样本。其创新性体现在采用七阶段处理流程，有效规避了传统静态数据集（如SWEbench）存在的数据污染和测试用例不足等问题，为AI辅助编程领域提供了更可靠的评估标准。

当前挑战

该数据集面临的核心挑战集中在两个维度：领域问题方面，需解决软件工程任务中代码补丁生成的多模态复杂性，包括跨文件上下文理解、回归测试覆盖率和动态环境适配等子问题；构建过程方面，需克服GitHub数据源的异构性（如非结构化issue描述）、自动化验证管道的可靠性（如Docker环境复现），以及防止解决方案在PR描述中泄露的污染风险。动态更新机制虽提升了数据新鲜度，但同步带来了任务质量波动和评估一致性的新挑战。

常用场景

经典使用场景

在软件工程领域，SWE-MERA数据集被广泛用于评估大型语言模型（LLMs）在解决真实世界GitHub问题上的能力。该数据集通过动态收集和更新GitHub上的问题和拉取请求，为研究者提供了一个不断进化的测试平台，以验证模型在代码修复、功能实现和问题定位等多方面的表现。

解决学术问题

SWE-MERA数据集解决了传统静态基准测试中的数据泄漏和过时问题。通过动态更新任务，该数据集确保了评估的公平性和时效性，同时减少了模型因记忆解决方案而导致的性能虚高。此外，其严格的验证流程和自动化评分系统显著提升了评估结果的可靠性，为软件工程领域的模型性能研究提供了坚实的数据基础。

衍生相关工作

SWE-MERA数据集衍生了一系列相关研究，例如基于其动态特性的扩展工作MultiSWE-bench，该研究将任务覆盖范围扩展到多种编程语言。此外，SWE-Gym和SWE-smith等研究通过自动任务生成和合成数据创建，进一步丰富了软件工程基准测试的多样性和规模。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集