five

semeru/code-text-php

收藏
Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/code-text-php
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是为代码生成自然语言注释,并使用平滑的BLEU-4分数进行评估。数据集来源于CodeSearchNet,并经过了一系列过滤处理,以确保数据的质量。数据格式为三个JSONL文件,分别用于训练、验证和测试。数据统计信息显示了PHP语言的训练、开发和测试集的数量。

该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是为代码生成自然语言注释,并使用平滑的BLEU-4分数进行评估。数据集来源于CodeSearchNet,并经过了一系列过滤处理,以确保数据的质量。数据格式为三个JSONL文件,分别用于训练、验证和测试。数据统计信息显示了PHP语言的训练、开发和测试集的数量。
提供机构:
semeru
原始信息汇总

数据集概述

数据来源与处理

  • 数据集从CodeXGLUE导入,并使用其脚本进行预处理。

数据存储位置

  • 在Semeru系统中,数据集位于 /nfs/semeru/semeru_datasets/code_xglue/code-to-text/php

任务定义

  • 任务目标:为代码生成自然语言注释。
  • 评估指标:使用smoothed bleu-4评分。

数据集筛选标准

  • 移除无法解析为抽象语法树的代码示例。
  • 移除文档中token数量少于3或大于256的示例。
  • 移除包含特殊token(如 <img ...>https:...)的文档。
  • 移除非英语文档。

数据格式

  • 预处理后,数据集包含三个.jsonl文件:train.jsonl, valid.jsonl, test.jsonl
  • 每个文件的每一行代表一个函数,包含以下字段:
    • repo:仓库所有者/仓库名
    • path:原始文件的完整路径
    • func_name:函数或方法名
    • original_string:token化或解析前的原始字符串
    • language:编程语言
    • code/function:原始字符串中的代码部分
    • code_tokens/function_tokenscode的token化版本
    • docstring:原始字符串中的顶级注释或文档字符串(如果存在)
    • docstring_tokensdocstring的token化版本

数据统计

编程语言 训练集 开发集 测试集
PHP 241,241 12,982 14,014
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作