SWE-Sharp-Bench

Name: SWE-Sharp-Bench
Creator: Microsoft
Published: 2025-11-04 14:25:51
License: 暂无描述

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/microsoft/SWE-Sharp-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Sharp-Bench是一个针对C#和.NET代码库的AI代理和模型软件工程能力的全面基准测试套件。该套件将SWE-Bench框架扩展到C#生态系统，提供了来自热门开源仓库的实际软件工程任务。

提供机构：

Microsoft

创建时间：

2025-11-04

原始信息汇总

SWE-Sharp-Bench 数据集概述

数据集简介

SWE-Sharp-Bench 是一个综合性基准测试套件，用于评估 AI 智能体和模型在 C# 和 .NET 代码库上的软件工程能力。该基准测试将 SWE-Bench 框架扩展到 C# 生态系统，提供来自流行开源存储库的真实世界软件工程任务。

核心特性

专注于 C# 和 .NET 代码库的软件工程能力评估
基于真实世界软件工程任务构建
源自流行开源存储库
扩展自 SWE-Bench 框架

许可信息

许可证类型：cdla-permissive-2.0

搜集汇总

数据集介绍

构建方式

在软件工程评估领域，SWE-Sharp-Bench通过精选真实开源项目中的C#与.NET代码库构建而成。该数据集从GitHub等平台选取具有代表性的软件工程问题，采用人工标注与自动化验证相结合的方式，确保每个任务场景均反映实际开发中的典型挑战。其构建过程严格遵循SWE-Bench框架的扩展逻辑，通过代码仓库快照与问题追踪系统的关联，形成涵盖代码修复、功能实现等多维度的任务集合。

特点

作为专注于C#生态的评估基准，该数据集囊括了从语法修复到架构设计的全栈工程任务。其特色在于采用动态更新的真实项目代码，既包含基础的类型错误修正，也涉及复杂的多模块协同问题。每个任务均配备完整的版本控制上下文，支持对AI代理的代码理解、修改验证等能力进行系统化测评，其任务难度梯度设计能有效区分不同水平的软件工程智能体。

使用方法

研究人员可通过GitHub仓库获取完整的基准测试套件，按照提供的评估脚本配置运行环境。使用时应加载指定的代码仓库快照，通过问题描述文件生成待解决任务，利用内置验证器对AI代理输出的代码补丁进行自动化测试。该基准支持并行评估多个模型，其标准化指标体系可量化衡量模型在代码正确性、修改精准度等方面的表现，最终生成可复现的评估报告。

背景与挑战

背景概述

随着人工智能技术在软件工程领域的深入应用，对AI代理处理复杂编程任务能力的评估需求日益增长。SWE-Sharp-Bench由微软研究团队于2024年推出，专为评估AI模型在C#与.NET生态中的软件工程能力而设计。该基准扩展了SWE-Bench框架，聚焦于现实开源项目的工程任务，旨在推动智能编程助手在类型安全语言环境下的发展，为自动化代码修复与系统维护提供标准化评估体系。

当前挑战

在领域问题层面，该数据集需解决C#语言特有的类型系统复杂性、异步编程模式及.NET框架依赖管理等挑战，其任务设计需覆盖从语法纠错到架构优化的多维度能力评估。构建过程中，团队面临真实项目代码库的许可合规性审查、单元测试依赖解耦、以及跨平台运行时环境一致性等工程难题，这些因素共同构成了基准构建的技术壁垒。

常用场景

经典使用场景

在软件工程领域，SWE-Sharp-Bench作为专门针对C#和.NET生态系统的评估基准，其经典应用场景聚焦于测试AI代理在真实代码库中的问题修复与功能实现能力。该数据集通过提取热门开源项目的实际任务，模拟开发过程中的典型挑战，例如代码调试、API集成及性能优化，为研究者提供了标准化环境以量化AI模型的工程适应性。

衍生相关工作

该基准催生了多项经典衍生研究，包括微软PROSE团队开发的智能代码重构框架，以及基于此构建的跨语言软件工程基准对比研究。这些工作进一步拓展了自适应测试用例生成、多模态编程意图理解等方向，形成贯穿代码生成与维护的技术演进脉络。

数据集最近研究

SWE-Sharp-Bench

SWE-Sharp-Bench 数据集概述

数据集简介

核心特性

相关资源

许可信息