semeru/code-text-python

Name: semeru/code-text-python
Creator: semeru
Published: 2023-03-23 18:46:18
License: 暂无描述

Hugging Face2023-03-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/semeru/code-text-python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从CodeXGLUE导入的，并使用了他们的脚本进行预处理。数据集的任务是生成代码的自然语言注释，并使用平滑的BLEU-4评分进行评估。数据集来源于CodeSearchNet，并经过了一系列的过滤处理，包括移除无法解析为抽象语法树的代码、文档标记数不在3到256之间的示例、包含特殊标记的示例以及非英语文档的示例。数据格式包括三个.jsonl文件，每个文件中的每一行代表一个函数，包含了仓库、路径、函数名、原始字符串、编程语言、代码、代码标记、文档字符串和文档字符串标记等信息。Python语言的数据统计信息显示，训练集有251,820个示例，开发集有13,914个示例，测试集有14,918个示例。

提供机构：

semeru

原始信息汇总

数据集概述

数据集来源与处理

数据集导入自CodeXGLUE，并使用其脚本进行预处理。

数据集位置

在Semeru中，数据集位于/nfs/semeru/semeru_datasets/code_xglue/code-to-text/python。

任务定义

任务是生成代码的自然语言注释，评估指标为smoothed bleu-4分数。

数据集过滤

移除无法解析为抽象语法树的代码示例。
移除文档token数量小于3或大于256的示例。
移除包含特殊token（如<img ...>或https:...）的文档。
移除非英语文档。

数据格式

预处理后，数据集包含三个.jsonl文件：train.jsonl, valid.jsonl, test.jsonl。
每个文件的每一行代表一个函数，包含以下字段：
- repo: 仓库所有者/仓库名称
- path: 原始文件的完整路径
- func_name: 函数或方法名称
- original_string: 未进行tokenization或解析的原始字符串
- language: 编程语言
- code/function: original_string中的代码部分
- code_tokens/function_tokens: code的tokenized版本
- docstring: 原始字符串中的顶级注释或docstring（如果存在）
- docstring_tokens: docstring的tokenized版本

数据统计

编程语言	训练集	开发集	测试集
Python	251,820	13,914	14,918

引用信息

@article{husain2019codesearchnet, title={Codesearchnet challenge: Evaluating the state of semantic code search}, author={Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc}, journal={arXiv preprint arXiv:1909.09436}, year={2019} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集