semeru/code-code-MethodGeneration
收藏Hugging Face2023-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/code-code-MethodGeneration
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集用于方法生成任务,即根据方法的签名、文档字符串和更多上下文预测方法体的实现。数据集来源于CodeSearchNet Python数据集,重新下载了所有方法,包括它们的签名、文档字符串和体。移除了没有文档字符串或名称包含test的方法。保留了方法周围的上下文信息,因为仅基于签名/文档字符串生成方法体是一个困难的任务。还应用了字面量归一化以提升用户体验。数据格式为每行一个JSON对象,包含签名、体、文档字符串和ID。数据统计信息显示训练集有893,538个实例,开发集和测试集各有20,000个实例。
This dataset is imported from CodeXGLUE and preprocessed using their official scripts. It is developed for the method generation task, where the goal is to predict the implementation of method bodies based on method signatures, docstrings and additional contextual information. Derived from the CodeSearchNet Python dataset, all relevant methods including their signatures, docstrings and bodies were re-downloaded. Methods without docstrings or those with 'test' in their names were excluded. We retained the contextual information surrounding each method, as generating method bodies solely based on signatures or docstrings poses a challenging task. Literal normalization was also applied to improve the overall user experience. The dataset is stored in a line-by-line JSON format, with each line being a JSON object containing the signature, body, docstring and ID. Statistical results show that the training set contains 893,538 instances, while the development and test sets each have 20,000 instances.
提供机构:
semeru
原始信息汇总
数据集概述
数据集来源与处理
- 数据集从CodeXGLUE导入,并使用其脚本进行预处理。
数据集位置
- 在Semeru中,数据集位于
/nfs/semeru/semeru_datasets/code_xglue/code-to-code/Method-Generation/dataset/codexglue_method_generation。
任务定义
- 方法生成任务定义为根据方法签名、文档字符串及其他上下文条件预测方法体实现。
数据集构成
- 使用CodeSearchNet Python数据集,重新下载存储库以提取所有方法,包括签名、文档字符串和方法体。
- 移除了没有文档字符串或名称中包含“test”的方法。
- 保留了方法周围的上下文信息,并应用了字面量规范化处理。
数据格式
-
数据集包含
train/dev/test.jsonl文件,每行数据格式如下: json { "signature": "...", "body": "...", "docstring": "...", "id": "..." } -
id指示了该方法在原始数据中的位置。
数据统计
| 数据分割 | #实例数 |
|---|---|
| 训练 | 893,538 |
| 开发 | 20,000 |
| 测试 | 20,000 |
引用文献
- 参考文献:Clement et al., 2021



