semeru/code-code-CodeCompletion-TokenLevel-Python

Name: semeru/code-code-CodeCompletion-TokenLevel-Python
Creator: semeru
Published: 2023-03-24 14:10:30
License: 暂无描述

Hugging Face2023-03-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/semeru/code-code-CodeCompletion-TokenLevel-Python

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是CodeXGLUE中的代码补全任务（token级别）数据集，主要用于预测给定上下文的下一个代码token。数据集为Python语言，依赖Python 3.7。数据格式为txt文件，每行是一个token化的代码片段。数据集分为训练集、开发集和测试集，分别包含95,000、5,000和50,000个文件，对应的token数量分别为72.1M、4.4M和37.3M。

提供机构：

semeru

原始信息汇总

数据集概述

基本信息

许可证: MIT
编程语言: Python
版本: Python 3
数据集来源: 从论文《Probabilistic for Code with Decision trees》(2016年论文发布日期)中获取
污染可能性: 非常可能
数据集大小: 标准分词器（TreeSitter）

数据集描述

数据集来源: 从CodeXGLUE导入并使用其脚本进行预处理
数据集位置: 在Semeru中的路径为 /nfs/semeru/semeru_datasets/code_xglue/code-to-code/CodeCompletion-token/dataset/py150
任务定义: 预测给定上下文后下一个代码令牌。模型通过令牌级别的准确性进行评估。
数据格式: 代码语料库保存为txt格式文件，每行是一个分词后的代码片段。

数据统计

数据分割	#文件数	#令牌数
训练	95,000	72.1M
验证	5,000	4.4M
测试	50,000	37.3M

注意：原始py150数据集中不存在开发集，我们从原始训练集中选取了5,000个文件作为开发集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集