TFix's Code Patches Data
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TFix_s_Code_Patches_Data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从 GitHub 上的开源项目中提取的超过 10 万个代码补丁对。每对都带有相应代码片段的错误版本和固定版本。提取代码片段而不是整个文件,以专注于有问题的区域(错误行+周围的其他行)。对于每个示例,都提供了存储库名称、提交 ID 和文件名,以便在感兴趣的情况下可以访问完整的文件。该数据集只有 JavaScript 程序,并且错误由流行的静态代码分析器 ESLint 检测到。该数据集可用于以下领域:程序修复、代码生成、错误发现、迁移学习以及与代码机器学习相关的更多领域
This dataset contains over 100,000 code patch pairs extracted from open-source projects hosted on GitHub. Each pair includes the buggy version and the fixed version of the targeted code snippet. Rather than extracting entire source files, code snippets are extracted to focus on the problematic regions, which consist of the buggy lines and their surrounding context lines. For each sample, the repository name, commit ID and file name are provided, enabling users to access the complete source file if needed. This dataset exclusively contains JavaScript programs, and all bugs within it are detected by the widely-used static code analyzer ESLint. This dataset can be utilized in multiple research and application fields including program repair, code generation, bug detection, transfer learning, and other code-related machine learning domains.
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含从GitHub开源项目中提取的10万多个JavaScript代码补丁对,每对包含错误版本和固定版本的代码片段,适用于程序修复、代码生成等领域。数据集由苏黎世联邦理工学院于2021年发布,相关论文和工具可在GitHub上找到。
以上内容由遇见数据集搜集并总结生成



