h4iku/coconut_javascript2010
收藏Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/h4iku/coconut_javascript2010
下载链接
链接失效反馈官方服务:
资源简介:
CoCoNuT-JavaScript(2010)数据集是用于训练程序修复模型的数据集,包含从GitHub、GitLab和Bitbucket提取的原始数据。数据集由四个列组成:`add`、`rem`、`context`和`meta`,分别对应原始数据集文件`add.txt`、`rem.txt`、`context.txt`和`meta.txt`。每个实例都有这四个列的映射关系。`context`列包含与错误代码相关的上下文,`meta`列包含项目的元数据。数据集包含10,163个项目和2,254,253个实例。数据集的创建目的是为了训练自动化程序修复(APR)模型。
提供机构:
h4iku
原始信息汇总
数据集概述
数据集名称
- 名称: CoCoNuT-JavaScript(2010)
数据集描述
数据集摘要
- 用途: 用于训练“CoCoNuT: Combining Context-Aware Neural Translation Models using Ensemble for Program Repair”论文中的模型。
- 数据来源: 从GitHub、GitLab和Bitbucket提取的原始数据,未进行洗牌或分词处理。
- 数据年份: 数据集名称中的年份表示数据集中最新提交的年份。
语言
- 语言: JavaScript
数据集结构
数据字段
- 字段:
add,rem,context,meta - 对应文件:
add.txt,rem.txt,context.txt,meta.txt
数据实例
- 示例: 展示了
rem和add字段的前五行,以及它们如何映射到具体的实例。 - 上下文:
context字段包含与错误相关的函数上下文。 - 元数据:
meta字段包含项目的一些元数据,如项目ID、文件路径等。
统计信息
- 项目数量: 10,163
- 实例数量: 2,254,253
数据集创建
数据收集理由
- 目的: 用于训练自动化程序修复(APR)模型。
引用信息
- 引用: bib @inproceedings{lutellierCoCoNuTCombiningContextaware2020, title = {{{CoCoNuT}}: Combining Context-Aware Neural Translation Models Using Ensemble for Program Repair}, booktitle = {Proceedings of the 29th {{ACM SIGSOFT International Symposium}} on {{Software Testing}} and {{Analysis}}}, author = {Lutellier, Thibaud and Pham, Hung Viet and Pang, Lawrence and Li, Yitong and Wei, Moshi and Tan, Lin}, year = {2020}, pages = {101--114}, doi = {10.1145/3395363.3397369} }



