vikp/clean_code
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vikp/clean_code
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为clean_code_data,包含从stack和pypi中筛选出的高质量代码数据。数据已经过清理,去除了代码许可证和其他头信息,并根据质量和学习价值进行了过滤。数据集的特征包括代码、路径、质量概率、学习概率、文件名和类型。数据集主要包含一个训练集,大小为29415279411字节,包含3450448个示例。
该数据集名为clean_code_data,包含从stack和pypi中筛选出的高质量代码数据。数据已经过清理,去除了代码许可证和其他头信息,并根据质量和学习价值进行了过滤。数据集的特征包括代码、路径、质量概率、学习概率、文件名和类型。数据集主要包含一个训练集,大小为29415279411字节,包含3450448个示例。
提供机构:
vikp
原始信息汇总
数据集概述
数据集名称
clean_code_data
数据集特征
- code: 字符串类型
- path: 字符串类型
- quality_prob: 浮点数类型(float64)
- learning_prob: 浮点数类型(float64)
- filename: 字符串类型
- kind: 字符串类型
数据集拆分
- train:
- 示例数量: 3450448
- 数据大小: 29415279411 字节
数据集大小
- 下载大小: 9929877988 字节
- 数据集大小: 29415279411 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
数据来源与处理
数据来源于stack和pypi,其中stack数据来自starcoder data,并已进行初步过滤。数据经过清洗,移除了代码许可证和其他头部信息,并根据质量和学习价值进行了过滤。



