NeelNanda/c4-code-20k
收藏Hugging Face2022-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NeelNanda/c4-code-20k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含10K个C4元素和10K个code parrot clean(Python代码)元素,用于训练可解释性友好的模型。需要注意的是,这些数据集并不是正确的混合比例,实际训练模型时使用了83%的C4和17%的Python代码(按token计算)。该数据集中的代码部分较长且难以压缩,按token计算大约有22M的代码和5M的C4。
提供机构:
NeelNanda
原始信息汇总
数据集概述
数据集名称
"c4-code-10k"
数据集内容
- 包含10,000个C4元素和10,000个Python代码元素。
数据集特征
- 名称: text
- 数据类型: string
数据集分割
- 分割名称: train
- 示例数量: 20000
- 数据大小: 101351288字节
数据集大小
- 下载大小: 42778874字节
- 总数据大小: 101351288字节



