BEE-spoke-data/code_contests_instruct
收藏Hugging Face2023-11-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/code_contests_instruct
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为code_contests_instruct,基于deepmind/code_contests数据集,并格式化为markdown-instruct用于文本生成训练。数据集包含多个配置,如hq、min-cols等,每个配置有不同的数据文件和特征。数据集主要用于代码竞赛相关的文本生成任务,包含多种编程语言的代码示例。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 数据集大小: 1M<n<10M
- 任务类别: 文本生成
数据源
teven/code_contestsdeepmind/code_contests
配置信息
默认配置 (default)
- 数据文件:
train:data/train-*test:data/test-*valid:data/valid-*
- 特征:
name: 字符串description: 字符串source: 整数64位difficulty: 整数64位solution: 字符串language: 字符串text: 字符串flesch_reading_ease: 浮点数64位
- 分割:
train: 25891168054字节, 4432447个样本test: 279260221字节, 32181个样本valid: 252932416字节, 29863个样本
- 下载大小: 5215422847字节
- 数据集大小: 26423360691字节
高质量配置 (hq)
- 数据文件:
train:hq/train-*test:hq/test-*valid:hq/valid-*
- 特征:
name: 字符串source: 整数64位difficulty: 整数64位language: 字符串text: 字符串
- 分割:
train: 5217583126.7379055字节, 1743032个样本test: 66792901.52201609字节, 15145个样本valid: 60429767.29487995字节, 14031个样本
- 下载大小: 2680120741字节
- 数据集大小: 5344805795.554802字节
高质量去重配置 (hq-deduped)
- 数据文件:
train:hq-deduped/train-*validation:hq-deduped/validation-*test:hq-deduped/test-*
- 特征:
name: 字符串source: 整数64位difficulty: 整数64位language: 字符串text: 字符串
- 分割:
train: 2622892441字节, 655870个样本validation: 36580402字节, 6697个样本test: 40713434字节, 7535个样本
- 下载大小: 1263763539字节
- 数据集大小: 2700186277字节
高质量Python配置 (hq-python)
- 数据文件:
train:hq-python/train-*test:hq-python/test-*valid:hq-python/valid-*
- 特征:
name: 字符串source: 整数64位difficulty: 整数64位language: 字符串text: 字符串
- 分割:
train: 1933769036.2943466字节, 646012个样本test: 16630969.405052671字节, 3771个样本valid: 17589278.713726014字节, 4084个样本
- 下载大小: 694570534字节
- 数据集大小: 1967989284.4131253字节
高质量Python去重配置 (hq-python-deduped)
- 数据文件:
train:hq-python-deduped/train-*validation:hq-python-deduped/validation-*test:hq-python-deduped/test-*
- 特征:
name: 字符串source: 整数64位difficulty: 整数64位language: 字符串text: 字符串
- 分割:
train: 291003334字节, 103850个样本validation: 6325352字节, 1377个样本test: 4835016字节, 1170个样本
- 下载大小: 142884093字节
- 数据集大小: 302163702字节
最小列配置 (min-cols)
- 数据文件:
train:min-cols/train-*test:min-cols/test-*valid:min-cols/valid-*
- 特征:
language: 字符串text: 字符串
- 分割:
train: 13060236837.0字节, 4432447个样本test: 140470163.0字节, 32181个样本valid: 127234217.0字节, 29863个样本
- 下载大小: 6417796354字节
- 数据集大小: 13327941217.0字节
标签
code



