SWE-gen JS
收藏github2026-01-21 更新2026-01-22 收录
下载链接:
https://github.com/abundant-ai/SWE-gen-JS
下载链接
链接失效反馈官方服务:
资源简介:
1000个JS/TS任务的数据集,从30个开源GitHub仓库使用SWE-gen生成。每个任务是一个合并的GitHub PR,带有链接的问题,编辑了3-10个源文件,具有Fail-to-Pass单元测试,并通过了NOP(基线失败)和Oracle(修复成功)验证,遵循Harbor格式。
A dataset of 1000 JS/TS tasks, generated from 30 open-source GitHub repositories via SWE-gen. Each task is a merged GitHub PR with linked issues, modifying 3 to 10 source files, equipped with Fail-to-Pass unit tests, and validated through NOP (baseline failure) and Oracle (successful repair) checks, adhering to the Harbor format.
创建时间:
2026-01-15
原始信息汇总
SWE-gen JS 数据集概述
数据集来源与规模
- 数据集包含 1000 个 JavaScript/TypeScript 任务。
- 这些任务是从 30 个开源的 GitHub 仓库中生成的。
- 生成工具为 SWE-gen。
任务特征
- 每个任务对应一个已合并的 GitHub Pull Request,并关联了相应的 Issues。
- 每个任务涉及修改 3 到 10 个源文件。
- 每个任务包含“失败到通过”的单元测试。
- 每个任务均通过了 NOP(基线失败)和 Oracle(修复成功)验证。
- 每个任务遵循 Harbor 格式。
使用说明
- 需先安装 Harbor 工具。
- 可通过指定
--dataset swe-gen-js参数运行基准测试。 - 支持使用 Oracle 代理验证环境设置。
- 支持使用 Codex 代理(需配置 OpenAI API 密钥)运行任务。
可视化
- 数据集包含饼图可视化资源,位于
assets/pie_chart.png。
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码生成与修复任务的数据集构建需兼顾真实性与复杂性。SWE-gen JS数据集通过精心筛选30个开源GitHub仓库,利用SWE-gen工具生成1000个JavaScript/TypeScript任务。每个任务对应一个已合并的拉取请求,并关联相关议题,确保其源自实际开发场景。数据构建过程中,每个任务涉及3至10个源文件的编辑,并配备从失败到通过的单元测试,同时经过NOP基线验证与Oracle修复成功验证,严格遵循Harbor格式标准,从而保证了数据的高质量与实用性。
特点
该数据集的核心特点在于其高度模拟真实软件开发环境。每个任务不仅包含多文件编辑,还整合了具体的单元测试用例,能够有效评估代码修复模型的性能。数据集经过严格验证,确保基线测试失败而修复方案成功,为研究提供了可靠的基准。此外,任务遵循统一的Harbor格式,便于集成与扩展,其规模与多样性覆盖了常见的JavaScript/TypeScript编程问题,为自动化软件工程研究提供了丰富的实验素材。
使用方法
使用SWE-gen JS数据集需依托Harbor工具链。首先安装Harbor环境,通过命令行自动下载数据集任务。用户可运行Oracle解决方案以验证设置正确性,随后利用如Codex等代理模型执行代码生成与修复任务。通过配置并发参数与API密钥,研究人员能够高效地进行批量实验,评估模型在真实代码问题上的表现。该流程设计简洁,支持灵活扩展,为软件工程自动化研究提供了便捷的实验平台。
背景与挑战
背景概述
在软件工程领域,自动化代码修复与生成技术正逐步成为提升开发效率的关键研究方向。SWE-gen JS数据集于2024年由Abundant AI团队创建,其核心目标在于构建一个高质量、规模化的JavaScript与TypeScript代码修复任务集合,以推动智能编程助手与自动化软件维护工具的发展。该数据集源自30个开源GitHub仓库,通过提取已合并的拉取请求及其关联的问题报告,生成了1000项涵盖实际开发场景的编程任务。每一任务均包含3至10个源文件的修改,并配备了从失败到通过的单元测试,确保了任务的真实性与可验证性。这一数据集的发布,为评估代码生成模型的实用性与鲁棒性提供了重要基准,显著促进了程序合成与软件工程人工智能交叉领域的实证研究。
当前挑战
SWE-gen JS数据集致力于应对自动化代码修复领域的核心难题,即如何使模型在复杂、多文件的真实世界编程任务中,准确理解代码变更意图并生成功能正确的修复方案。此类任务往往涉及跨文件的上下文依赖、细微的语义逻辑调整以及严格的测试验证,对模型的代码理解与生成能力提出了极高要求。在数据集构建过程中,研究人员面临的主要挑战包括:从海量开源历史中筛选出高质量、可复现的代码变更实例;确保每个任务均具备完整的失败与通过测试用例,以形成可靠的评估基准;以及维护数据格式的标准化与工具链的兼容性,如遵循Harbor格式以实现自动化评估。这些挑战的克服,为构建更贴近实际开发需求的评估体系奠定了坚实基础。
常用场景
经典使用场景
在软件工程领域,代码生成与修复任务一直是自动化研究的核心挑战。SWE-gen JS数据集通过从30个开源GitHub仓库中提取1000个JavaScript/TypeScript任务,为评估代码生成模型提供了标准化的测试平台。每个任务均源自真实的合并拉取请求,并关联了相应的问题报告,涵盖了3至10个源文件的编辑操作。该数据集特别强调单元测试的从失败到通过的验证过程,确保任务具有明确的正确性基准,从而成为衡量模型在复杂代码变更场景下性能的经典工具。
实际应用
在实际开发流程中,自动化代码修复与辅助编程工具正日益普及。SWE-gen JS数据集可直接用于训练和测试智能编程助手,帮助开发者快速定位并修复代码缺陷。例如,集成开发环境可借助基于该数据集训练的模型,在代码提交前自动建议修复方案,或为拉取请求提供自动化审查支持。此外,该数据集支持对大型语言模型在代码任务上的系统评估,为工具开发商提供了优化模型在真实JavaScript/TypeScript项目环境中性能的参照标准,从而推动软件开发效率与质量的提升。
衍生相关工作
围绕SWE-gen JS数据集,已衍生出一系列聚焦于代码生成与软件工程自动化的经典研究工作。例如,基于Harbor评估框架的系列实验,系统比较了不同模型在复杂代码修复任务上的表现。相关研究进一步探索了多文件上下文理解、测试驱动修复以及代码变更的语义一致性等关键问题。这些工作不仅深化了对大型语言模型在编程任务中能力的理解,也促进了如自动化代码审查、智能缺陷预测等工具的开发,形成了从基准构建到实际应用转化的完整研究链条。
以上内容由遇见数据集搜集并总结生成



