five

semeru/code-text-python

收藏
Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semeru/code-text-python
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是生成代码的自然语言注释,并使用平滑的BLEU-4评分进行评估。数据集来源于CodeSearchNet,并经过了一系列的过滤处理,包括移除无法解析为抽象语法树的代码、文档标记数不在3到256之间的示例、包含特殊标记的示例以及非英语文档的示例。数据格式包括三个.jsonl文件,每个文件中的每一行代表一个函数,包含了仓库、路径、函数名、原始字符串、编程语言、代码、代码标记、文档字符串和文档字符串标记等信息。Python语言的数据统计信息显示,训练集有251,820个示例,开发集有13,914个示例,测试集有14,918个示例。

该数据集是从CodeXGLUE导入的,并使用了他们的脚本进行预处理。数据集的任务是生成代码的自然语言注释,并使用平滑的BLEU-4评分进行评估。数据集来源于CodeSearchNet,并经过了一系列的过滤处理,包括移除无法解析为抽象语法树的代码、文档标记数不在3到256之间的示例、包含特殊标记的示例以及非英语文档的示例。数据格式包括三个.jsonl文件,每个文件中的每一行代表一个函数,包含了仓库、路径、函数名、原始字符串、编程语言、代码、代码标记、文档字符串和文档字符串标记等信息。Python语言的数据统计信息显示,训练集有251,820个示例,开发集有13,914个示例,测试集有14,918个示例。
提供机构:
semeru
原始信息汇总

数据集概述

数据集来源与处理

  • 数据集导入自CodeXGLUE,并使用其脚本进行预处理。

数据集位置

  • 在Semeru中,数据集位于/nfs/semeru/semeru_datasets/code_xglue/code-to-text/python

任务定义

  • 任务是生成代码的自然语言注释,评估指标为smoothed bleu-4分数。

数据集过滤

  • 移除无法解析为抽象语法树的代码示例。
  • 移除文档token数量小于3或大于256的示例。
  • 移除包含特殊token(如<img ...>https:...)的文档。
  • 移除非英语文档。

数据格式

  • 预处理后,数据集包含三个.jsonl文件:train.jsonl, valid.jsonl, test.jsonl
  • 每个文件的每一行代表一个函数,包含以下字段:
    • repo: 仓库所有者/仓库名称
    • path: 原始文件的完整路径
    • func_name: 函数或方法名称
    • original_string: 未进行tokenization或解析的原始字符串
    • language: 编程语言
    • code/function: original_string中的代码部分
    • code_tokens/function_tokens: code的tokenized版本
    • docstring: 原始字符串中的顶级注释或docstring(如果存在)
    • docstring_tokens: docstring的tokenized版本

数据统计

编程语言 训练集 开发集 测试集
Python 251,820 13,914 14,918

引用信息

@article{husain2019codesearchnet, title={Codesearchnet challenge: Evaluating the state of semantic code search}, author={Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc}, journal={arXiv preprint arXiv:1909.09436}, year={2019} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作