five

Multi-SWE-bench

收藏
Hugging Face2025-04-09 更新2025-04-10 收录
下载链接:
https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-SWE-bench是一个多语言代码问题解决评估基准,包含7种编程语言(Java、TypeScript、JavaScript、Go、Rust、C和C++)的1632个优质实例,用于评估大型语言模型在真实世界代码问题解决中的性能。
创建时间:
2025-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
Multi-SWE-bench数据集通过精心筛选开源项目中的Pull Request数据构建而成,覆盖了Java、TypeScript、JavaScript、Go、Rust、C和C++七种编程语言。研究团队从2,456个候选实例中精选出1,632个高质量样本,并由68位专业标注者进行严格审核,确保数据可靠性。每个实例包含完整的PR信息、修复补丁、测试补丁以及详细的测试结果,为代码问题解决提供了全面的基准。
特点
该数据集最显著的特点是突破了传统Python基准的局限,实现了多语言覆盖。每个数据实例都包含org、repo、PR编号等元数据,以及fix_patch、test_patch等关键技术细节。特别设计的测试验证体系(如p2p_tests、f2p_tests等)为评估模型修复能力提供了多维度的验证标准,1,632个实例均来自知名开源项目,具有高度的代表性和实用性。
使用方法
研究人员可通过Git LFS工具克隆整个数据集仓库,数据集按语言分类存储在jsonl格式文件中。使用前需仔细阅读各开源项目的许可协议,确保合规使用。该数据集特别适合用于评估大型语言模型在多语言环境下的代码问题解决能力,可通过分析fix_patch_result等字段来量化模型表现。官方提供的在线排行榜便于研究者进行横向比较。
背景与挑战
背景概述
Multi-SWE-bench数据集由字节跳动研究团队于2025年推出,旨在填补多语言代码问题解决评估基准的空白。该数据集聚焦于七种主流编程语言(Java、TypeScript、JavaScript、Go、Rust、C和C++),包含1,632个高质量实例,源自68位专家标注者从2,456个候选样本中严格筛选。作为首个突破Python单语言限制的基准框架,其通过真实GitHub仓库的拉取请求数据,系统评估大语言模型在跨语言代码缺陷修复、测试用例适配等软件工程核心任务中的表现,为多语言场景下的智能编程辅助研究提供了标准化评估体系。
当前挑战
构建该数据集需攻克多语言语法差异导致的评估标准统一难题,包括不同编程范式下的补丁有效性验证、测试用例跨语言适配等核心技术瓶颈。在数据采集阶段,需解决开源项目issue-PR关联稀疏性问题,通过专家标注确保每个实例包含完整的缺陷修复链路(问题描述、修复补丁、测试验证)。评估维度上,需设计兼顾语言特性的统一指标,以衡量模型在代码生成、测试修复、跨语言迁移等复合任务中的表现,这对基准的可靠性和泛化性提出了极高要求。
常用场景
经典使用场景
在软件工程领域,Multi-SWE-bench数据集为评估大型语言模型在解决多语言代码问题方面的能力提供了标准化测试平台。该数据集覆盖Java、TypeScript等7种编程语言,通过精心筛选的1,632个高质量实例,研究人员能够系统性地测试模型在真实GitHub代码库问题修复场景中的表现。每个实例包含完整的拉取请求元数据、修复补丁和测试用例,为模型评估提供了丰富的上下文信息。
解决学术问题
该数据集有效解决了当前软件工程研究中多语言基准测试缺失的核心问题。传统评估往往局限于Python等单一语言,难以反映模型在复杂工业环境中的真实表现。通过涵盖主流编程语言的实际问题案例,该数据集使研究者能够全面分析模型在不同语言范式下的泛化能力,为跨语言代码理解与生成研究提供了重要数据支撑。其严格的专家标注流程保证了数据可靠性,显著提升了相关研究的可复现性。
衍生相关工作
该数据集的发布催生了多个重要研究方向,包括跨语言代码迁移学习框架的构建和领域自适应方法的研究。部分团队已基于其多语言特性开发了统一的代码表示模型,如PolyCoder的扩展工作。在软件维护自动化领域,该数据集支撑了多项关于缺陷预测和补丁生成的研究,相关成果发表在ICSE、FSE等顶级会议,推动了智能软件工程工具链的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作