five

SWE-Sharp-Bench

收藏
Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/microsoft/SWE-Sharp-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-Sharp-Bench是一个针对C#和.NET代码库的AI代理和模型软件工程能力的全面基准测试套件。该套件将SWE-Bench框架扩展到C#生态系统,提供了来自热门开源仓库的实际软件工程任务。
提供机构:
Microsoft
创建时间:
2025-11-04
原始信息汇总

SWE-Sharp-Bench 数据集概述

数据集简介

SWE-Sharp-Bench 是一个综合性基准测试套件,用于评估 AI 智能体和模型在 C# 和 .NET 代码库上的软件工程能力。该基准测试将 SWE-Bench 框架扩展到 C# 生态系统,提供来自流行开源存储库的真实世界软件工程任务。

核心特性

  • 专注于 C# 和 .NET 代码库的软件工程能力评估
  • 基于真实世界软件工程任务构建
  • 源自流行开源存储库
  • 扩展自 SWE-Bench 框架

相关资源

  • 代码地址:https://github.com/microsoft/prose/tree/main/misc/SWE-Sharp-Bench
  • 研究论文草稿与基准分析:https://aka.ms/swesharparxiv

许可信息

许可证类型:cdla-permissive-2.0

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程评估领域,SWE-Sharp-Bench通过精选真实开源项目中的C#与.NET代码库构建而成。该数据集从GitHub等平台选取具有代表性的软件工程问题,采用人工标注与自动化验证相结合的方式,确保每个任务场景均反映实际开发中的典型挑战。其构建过程严格遵循SWE-Bench框架的扩展逻辑,通过代码仓库快照与问题追踪系统的关联,形成涵盖代码修复、功能实现等多维度的任务集合。
特点
作为专注于C#生态的评估基准,该数据集囊括了从语法修复到架构设计的全栈工程任务。其特色在于采用动态更新的真实项目代码,既包含基础的类型错误修正,也涉及复杂的多模块协同问题。每个任务均配备完整的版本控制上下文,支持对AI代理的代码理解、修改验证等能力进行系统化测评,其任务难度梯度设计能有效区分不同水平的软件工程智能体。
使用方法
研究人员可通过GitHub仓库获取完整的基准测试套件,按照提供的评估脚本配置运行环境。使用时应加载指定的代码仓库快照,通过问题描述文件生成待解决任务,利用内置验证器对AI代理输出的代码补丁进行自动化测试。该基准支持并行评估多个模型,其标准化指标体系可量化衡量模型在代码正确性、修改精准度等方面的表现,最终生成可复现的评估报告。
背景与挑战
背景概述
随着人工智能技术在软件工程领域的深入应用,对AI代理处理复杂编程任务能力的评估需求日益增长。SWE-Sharp-Bench由微软研究团队于2024年推出,专为评估AI模型在C#与.NET生态中的软件工程能力而设计。该基准扩展了SWE-Bench框架,聚焦于现实开源项目的工程任务,旨在推动智能编程助手在类型安全语言环境下的发展,为自动化代码修复与系统维护提供标准化评估体系。
当前挑战
在领域问题层面,该数据集需解决C#语言特有的类型系统复杂性、异步编程模式及.NET框架依赖管理等挑战,其任务设计需覆盖从语法纠错到架构优化的多维度能力评估。构建过程中,团队面临真实项目代码库的许可合规性审查、单元测试依赖解耦、以及跨平台运行时环境一致性等工程难题,这些因素共同构成了基准构建的技术壁垒。
常用场景
经典使用场景
在软件工程领域,SWE-Sharp-Bench作为专门针对C#和.NET生态系统的评估基准,其经典应用场景聚焦于测试AI代理在真实代码库中的问题修复与功能实现能力。该数据集通过提取热门开源项目的实际任务,模拟开发过程中的典型挑战,例如代码调试、API集成及性能优化,为研究者提供了标准化环境以量化AI模型的工程适应性。
衍生相关工作
该基准催生了多项经典衍生研究,包括微软PROSE团队开发的智能代码重构框架,以及基于此构建的跨语言软件工程基准对比研究。这些工作进一步拓展了自适应测试用例生成、多模态编程意图理解等方向,形成贯穿代码生成与维护的技术演进脉络。
数据集最近研究
最新研究方向
在软件工程智能化研究领域,SWE-Sharp-Bench作为C#与.NET生态的专用评估基准,正推动AI代理在复杂代码库中的任务解决能力研究。前沿工作聚焦于大语言模型对真实开源项目的缺陷修复、功能实现等任务泛化性分析,结合微软研究团队发布的基准分析报告,该数据集为跨语言软件自动化提供了关键实验基础,促进了工业级代码理解与生成技术的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作