semeru/code-text-php
收藏Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/code-text-php
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是为代码生成自然语言注释,并使用平滑的BLEU-4分数进行评估。数据集来源于CodeSearchNet,并经过了一系列过滤处理,以确保数据的质量。数据格式为三个JSONL文件,分别用于训练、验证和测试。数据统计信息显示了PHP语言的训练、开发和测试集的数量。
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是为代码生成自然语言注释,并使用平滑的BLEU-4分数进行评估。数据集来源于CodeSearchNet,并经过了一系列过滤处理,以确保数据的质量。数据格式为三个JSONL文件,分别用于训练、验证和测试。数据统计信息显示了PHP语言的训练、开发和测试集的数量。
提供机构:
semeru
原始信息汇总
数据集概述
数据来源与处理
- 数据集从CodeXGLUE导入,并使用其脚本进行预处理。
数据存储位置
- 在Semeru系统中,数据集位于
/nfs/semeru/semeru_datasets/code_xglue/code-to-text/php。
任务定义
- 任务目标:为代码生成自然语言注释。
- 评估指标:使用smoothed bleu-4评分。
数据集筛选标准
- 移除无法解析为抽象语法树的代码示例。
- 移除文档中token数量少于3或大于256的示例。
- 移除包含特殊token(如
<img ...>或https:...)的文档。 - 移除非英语文档。
数据格式
- 预处理后,数据集包含三个
.jsonl文件:train.jsonl,valid.jsonl,test.jsonl。 - 每个文件的每一行代表一个函数,包含以下字段:
- repo:仓库所有者/仓库名
- path:原始文件的完整路径
- func_name:函数或方法名
- original_string:token化或解析前的原始字符串
- language:编程语言
- code/function:原始字符串中的代码部分
- code_tokens/function_tokens:
code的token化版本 - docstring:原始字符串中的顶级注释或文档字符串(如果存在)
- docstring_tokens:
docstring的token化版本
数据统计
| 编程语言 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|
| PHP | 241,241 | 12,982 | 14,014 |



