semeru/code-text-python
收藏Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/code-text-python
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是生成代码的自然语言注释,并使用平滑的BLEU-4评分进行评估。数据集来源于CodeSearchNet,并经过了一系列的过滤处理,包括移除无法解析为抽象语法树的代码、文档标记数不在3到256之间的示例、包含特殊标记的示例以及非英语文档的示例。数据格式包括三个.jsonl文件,每个文件中的每一行代表一个函数,包含了仓库、路径、函数名、原始字符串、编程语言、代码、代码标记、文档字符串和文档字符串标记等信息。Python语言的数据统计信息显示,训练集有251,820个示例,开发集有13,914个示例,测试集有14,918个示例。
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是生成代码的自然语言注释,并使用平滑的BLEU-4评分进行评估。数据集来源于CodeSearchNet,并经过了一系列的过滤处理,包括移除无法解析为抽象语法树的代码、文档标记数不在3到256之间的示例、包含特殊标记的示例以及非英语文档的示例。数据格式包括三个.jsonl文件,每个文件中的每一行代表一个函数,包含了仓库、路径、函数名、原始字符串、编程语言、代码、代码标记、文档字符串和文档字符串标记等信息。Python语言的数据统计信息显示,训练集有251,820个示例,开发集有13,914个示例,测试集有14,918个示例。
提供机构:
semeru
原始信息汇总
数据集概述
数据集来源与处理
- 数据集导入自CodeXGLUE,并使用其脚本进行预处理。
数据集位置
- 在Semeru中,数据集位于
/nfs/semeru/semeru_datasets/code_xglue/code-to-text/python。
任务定义
- 任务是生成代码的自然语言注释,评估指标为smoothed bleu-4分数。
数据集过滤
- 移除无法解析为抽象语法树的代码示例。
- 移除文档token数量小于3或大于256的示例。
- 移除包含特殊token(如
<img ...>或https:...)的文档。 - 移除非英语文档。
数据格式
- 预处理后,数据集包含三个
.jsonl文件:train.jsonl,valid.jsonl,test.jsonl。 - 每个文件的每一行代表一个函数,包含以下字段:
- repo: 仓库所有者/仓库名称
- path: 原始文件的完整路径
- func_name: 函数或方法名称
- original_string: 未进行tokenization或解析的原始字符串
- language: 编程语言
- code/function:
original_string中的代码部分 - code_tokens/function_tokens:
code的tokenized版本 - docstring: 原始字符串中的顶级注释或docstring(如果存在)
- docstring_tokens:
docstring的tokenized版本
数据统计
| 编程语言 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|
| Python | 251,820 | 13,914 | 14,918 |
引用信息
@article{husain2019codesearchnet, title={Codesearchnet challenge: Evaluating the state of semantic code search}, author={Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc}, journal={arXiv preprint arXiv:1909.09436}, year={2019} }



