SWE-MERA

Name: SWE-MERA
Creator: SberAI, ITMO University, MWS AI
Published: 2025-07-15 15:52:33
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://a-ai.ru

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-MERA是一个动态更新的基准数据集，用于评估大型语言模型在软件工程任务中的表现。该数据集由真实世界中的GitHub问题组成，并通过自动化的方式收集和验证，以确保数据的真实性和质量。目前，数据集包含大约300个样本，但预计将扩展到10,000个任务。SWE-MERA旨在解决现有基准数据集中存在的问题，例如数据泄露和基准饱和。数据集创建过程包括七个阶段的流水线，以确保数据的质量和减少污染风险。SWE-MERA适用于评估代码生成、代码推理和代码修复等软件工程任务，并已被用于评估多种最新的LLM模型。

SWE-MERA is a dynamically updated benchmark dataset for evaluating the performance of Large Language Models (LLMs) on software engineering tasks. This dataset consists of real-world GitHub issues, which are collected and validated via automated methods to ensure data authenticity and quality. Currently, the dataset contains approximately 300 samples, but it is expected to expand to 10,000 tasks. SWE-MERA aims to address the issues existing in current benchmark datasets, such as data leakage and benchmark saturation. The dataset creation process includes a seven-stage pipeline to ensure data quality and mitigate the risk of contamination. This dataset is suitable for evaluating software engineering tasks such as code generation, code reasoning, and code repair, and has been used to evaluate multiple state-of-the-art LLM models.

提供机构：

SberAI, ITMO University, MWS AI

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

在软件工程领域，动态评估大型语言模型的能力已成为研究热点。SWE-MERA采用七阶段自动化流程构建数据集，首先基于星标和活跃度筛选GitHub仓库，随后建立PR-Issue映射关系并提取元数据。通过严格的补丁验证和容器化构建测试，确保任务质量，最终采用Qwen3-32B模型进行四项指标评估，保留综合评分前75%的任务。该流程每月自动更新，目前已收集300个经严格验证的任务样本。

特点

该数据集最显著的特征在于其动态更新机制，有效解决了传统静态基准的数据泄露和过时问题。任务均来自真实GitHub问题，包含完整的问题描述、测试用例和修复补丁，确保评估场景的真实性。通过LLM驱动的质量评估系统，数据集在任务正确性、测试覆盖度等维度保持高标准，同时保留不同难度级别的任务以全面评估模型能力。其容器化执行环境设计保障了任务的可复现性。

使用方法

研究人员可通过Hugging Face平台获取数据集，使用Docker容器或Conda环境复现评估流程。评估采用Aider编码代理框架，为每个任务提供六次尝试机会，记录首次成功率(pass@1)和累计成功率(pass@6)两个关键指标。平台提供交互式可视化界面，支持按时间维度分析模型表现，并设有动态排行榜机制。用户可通过提交Pull Request参与公开评测，系统将在48小时内验证并更新结果。

背景与挑战

背景概述

SWE-MERA是由SberAI、ITMO University和MWS AI的研究团队于2025年推出的动态基准测试数据集，旨在解决大型语言模型（LLMs）在软件工程任务评估中的关键局限性。该数据集通过自动化收集GitHub真实问题并实施严格的质量验证，构建了一个包含约10,000个潜在任务的动态更新库，目前公开300个样本。其创新性体现在采用七阶段处理流程，有效规避了传统静态数据集（如SWEbench）存在的数据污染和测试用例不足等问题，为AI辅助编程领域提供了更可靠的评估标准。

当前挑战

该数据集面临的核心挑战集中在两个维度：领域问题方面，需解决软件工程任务中代码补丁生成的多模态复杂性，包括跨文件上下文理解、回归测试覆盖率和动态环境适配等子问题；构建过程方面，需克服GitHub数据源的异构性（如非结构化issue描述）、自动化验证管道的可靠性（如Docker环境复现），以及防止解决方案在PR描述中泄露的污染风险。动态更新机制虽提升了数据新鲜度，但同步带来了任务质量波动和评估一致性的新挑战。

常用场景

经典使用场景

在软件工程领域，SWE-MERA数据集被广泛用于评估大型语言模型（LLMs）在解决真实世界GitHub问题上的能力。该数据集通过动态收集和更新GitHub上的问题和拉取请求，为研究者提供了一个不断进化的测试平台，以验证模型在代码修复、功能实现和问题定位等多方面的表现。

解决学术问题

SWE-MERA数据集解决了传统静态基准测试中的数据泄漏和过时问题。通过动态更新任务，该数据集确保了评估的公平性和时效性，同时减少了模型因记忆解决方案而导致的性能虚高。此外，其严格的验证流程和自动化评分系统显著提升了评估结果的可靠性，为软件工程领域的模型性能研究提供了坚实的数据基础。

衍生相关工作

SWE-MERA数据集衍生了一系列相关研究，例如基于其动态特性的扩展工作MultiSWE-bench，该研究将任务覆盖范围扩展到多种编程语言。此外，SWE-Gym和SWE-smith等研究通过自动任务生成和合成数据创建，进一步丰富了软件工程基准测试的多样性和规模。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集