five

h4iku/coconut_python2010

收藏
Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/h4iku/coconut_python2010
下载链接
链接失效反馈
官方服务:
资源简介:
CoCoNuT-Python(2010)数据集用于训练论文《CoCoNuT: Combining Context-Aware Neural Translation Models using Ensemble for Program Repair》中的模型。数据来源于GitHub、GitLab和Bitbucket,包含未经过洗牌和标记化的原始数据。数据集名称中的年份表示数据集中最新提交的年份。数据集包含4个字段:`add`、`rem`、`context`和`meta`,分别对应原始数据集文件中的`add.txt`、`rem.txt`、`context.txt`和`meta.txt`。每个实例在这4个字段之间存在映射关系。`context`字段包含与错误行相关的上下文(即包含错误行和注释的函数),`meta`字段包含项目的元数据。数据集包含13,899个项目和480,777个实例。数据集的创建目的是为了训练自动程序修复(APR)模型。
提供机构:
h4iku
原始信息汇总

数据集概述

数据集名称

  • 名称: CoCoNuT-Python(2010)

数据集描述

  • 用途: 用于训练模型,该模型在论文"CoCoNuT: Combining Context-Aware Neural Translation Models using Ensemble for Program Repair"中被提及。
  • 数据来源: 数据提取自GitHub、GitLab和Bitbucket。
  • 数据处理: 数据未经过洗牌或标记化处理。
  • 数据集年份: 数据集名称中的年份代表数据集中最新提交的年份。

语言

  • 主要语言: Python

数据集结构

  • 数据字段: 包含4个主要字段:add, rem, context, 和 meta
  • 数据实例: 每个实例包含4个字段,分别对应add.txt, rem.txt, context.txt, 和 meta.txt文件。

数据集创建

  • 采集理由: 为了训练自动化程序修复(APR)模型。

引用信息

  • 引用文献: bib @inproceedings{lutellierCoCoNuTCombiningContextaware2020, title = {{{CoCoNuT}}: Combining Context-Aware Neural Translation Models Using Ensemble for Program Repair}, booktitle = {Proceedings of the 29th {{ACM SIGSOFT International Symposium}} on {{Software Testing}} and {{Analysis}}}, author = {Lutellier, Thibaud and Pham, Hung Viet and Pang, Lawrence and Li, Yitong and Wei, Moshi and Tan, Lin}, year = {2020}, doi = {10.1145/3395363.3397369} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作