swt-bench-manim

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/kgoel59/swt-bench-manim

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与代码仓库相关的信息，如仓库名称（repo）、拉取请求编号（pull_number）、实例ID（instance_id）、问题报告编号（issue_numbers）、基础提交哈希（base_commit）、补丁代码（patch）、测试补丁（test_patch）、问题描述（problem_statement）、提示文本（hints_text）、创建时间（created_at）以及文本内容（text）。数据集分为训练集（train），包含155个示例，总字节数为12201049字节。数据集的下载大小为4857981字节，整个数据集的大小为12201049字节。

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

在软件测试研究领域，swt-bench-manim数据集通过系统化采集开源项目Manim的GitHub仓库数据构建而成。该数据集从实际开发场景中提取了155个训练实例，每个实例包含完整的代码修改记录、测试用例补丁及问题描述。数据构建过程注重保留真实开发环境中的代码变更轨迹，包括基础提交哈希、代码补丁内容以及关联的问题编号，确保了数据来源的工程实践价值。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行模型训练与评估。使用时应重点关注代码补丁与测试补丁的对应关系，利用问题陈述字段作为任务输入，将生成的代码补丁与真实修改进行对比验证。数据集适用于代码自动修复、测试用例生成等研究方向，建议结合实例中的提示文本和问题描述构建端到端的代码理解与生成任务。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码修复技术逐渐成为研究热点。swt-bench-manim数据集由专业研究团队于近期构建，聚焦于Manim数学动画库的实际代码维护场景。该数据集通过整合GitHub仓库的拉取请求、问题报告及测试补丁等多元信息，旨在探索智能程序修复模型在处理复杂依赖关系与多模态代码上下文时的性能边界，为提升开源软件质量维护效率提供了标准化评估基准。

当前挑战

该数据集核心挑战体现在两方面：在领域问题层面，需解决测试驱动代码修复中长序列依赖捕获与跨模块语义关联的建模难题，现有模型对涉及数学可视化库的特定领域逻辑理解仍显薄弱；在构建过程中，如何从异构的GitHub活动数据中精准提取问题-补丁对、保持测试用例与代码修改的同步验证，以及处理时间跨度带来的代码库演化冲突，均构成了显著的技术障碍。

常用场景

经典使用场景

在软件工程与代码生成研究领域，swt-bench-manim数据集通过整合GitHub仓库的拉取请求、问题报告及代码补丁等结构化数据，为自动化程序修复与测试生成任务提供了标准化评估框架。其典型应用体现在构建基于自然语言描述的代码补丁生成模型，研究者可利用问题陈述与对应补丁的映射关系，训练系统理解缺陷报告并生成精确的修正方案。

解决学术问题

该数据集有效应对了代码智能领域长期存在的语义鸿沟挑战，将非结构化的开发问题转化为可计算的代码变更序列。通过提供问题声明、提示文本与测试补丁的多模态关联，显著提升了模型对开发意图的解析能力，为程序自动修复、测试用例生成等研究方向建立了可复现的基准体系，推动了软件维护自动化技术的理论发展。

实际应用

在工业级软件开发流程中，该数据集支撑的智能编程助手可实时解析开发者提交的问题描述，自动生成符合上下文的代码修正建议。例如集成至持续集成系统后，能根据缺陷报告快速生成候选补丁，辅助代码审查环节。这种应用不仅缩短了问题修复周期，更通过标准化的问题-补丁映射关系提升了团队协作效率。

数据集最近研究