five

BEE-spoke-data/code_contests_instruct

收藏
Hugging Face2023-11-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/code_contests_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为code_contests_instruct,基于deepmind/code_contests数据集,并格式化为markdown-instruct用于文本生成训练。数据集包含多个配置,如hq、min-cols等,每个配置有不同的数据文件和特征。数据集主要用于代码竞赛相关的文本生成任务,包含多种编程语言的代码示例。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache 2.0
  • 数据集大小: 1M<n<10M
  • 任务类别: 文本生成

数据源

  • teven/code_contests
  • deepmind/code_contests

配置信息

默认配置 (default)

  • 数据文件:
    • train: data/train-*
    • test: data/test-*
    • valid: data/valid-*
  • 特征:
    • name: 字符串
    • description: 字符串
    • source: 整数64位
    • difficulty: 整数64位
    • solution: 字符串
    • language: 字符串
    • text: 字符串
    • flesch_reading_ease: 浮点数64位
  • 分割:
    • train: 25891168054字节, 4432447个样本
    • test: 279260221字节, 32181个样本
    • valid: 252932416字节, 29863个样本
  • 下载大小: 5215422847字节
  • 数据集大小: 26423360691字节

高质量配置 (hq)

  • 数据文件:
    • train: hq/train-*
    • test: hq/test-*
    • valid: hq/valid-*
  • 特征:
    • name: 字符串
    • source: 整数64位
    • difficulty: 整数64位
    • language: 字符串
    • text: 字符串
  • 分割:
    • train: 5217583126.7379055字节, 1743032个样本
    • test: 66792901.52201609字节, 15145个样本
    • valid: 60429767.29487995字节, 14031个样本
  • 下载大小: 2680120741字节
  • 数据集大小: 5344805795.554802字节

高质量去重配置 (hq-deduped)

  • 数据文件:
    • train: hq-deduped/train-*
    • validation: hq-deduped/validation-*
    • test: hq-deduped/test-*
  • 特征:
    • name: 字符串
    • source: 整数64位
    • difficulty: 整数64位
    • language: 字符串
    • text: 字符串
  • 分割:
    • train: 2622892441字节, 655870个样本
    • validation: 36580402字节, 6697个样本
    • test: 40713434字节, 7535个样本
  • 下载大小: 1263763539字节
  • 数据集大小: 2700186277字节

高质量Python配置 (hq-python)

  • 数据文件:
    • train: hq-python/train-*
    • test: hq-python/test-*
    • valid: hq-python/valid-*
  • 特征:
    • name: 字符串
    • source: 整数64位
    • difficulty: 整数64位
    • language: 字符串
    • text: 字符串
  • 分割:
    • train: 1933769036.2943466字节, 646012个样本
    • test: 16630969.405052671字节, 3771个样本
    • valid: 17589278.713726014字节, 4084个样本
  • 下载大小: 694570534字节
  • 数据集大小: 1967989284.4131253字节

高质量Python去重配置 (hq-python-deduped)

  • 数据文件:
    • train: hq-python-deduped/train-*
    • validation: hq-python-deduped/validation-*
    • test: hq-python-deduped/test-*
  • 特征:
    • name: 字符串
    • source: 整数64位
    • difficulty: 整数64位
    • language: 字符串
    • text: 字符串
  • 分割:
    • train: 291003334字节, 103850个样本
    • validation: 6325352字节, 1377个样本
    • test: 4835016字节, 1170个样本
  • 下载大小: 142884093字节
  • 数据集大小: 302163702字节

最小列配置 (min-cols)

  • 数据文件:
    • train: min-cols/train-*
    • test: min-cols/test-*
    • valid: min-cols/valid-*
  • 特征:
    • language: 字符串
    • text: 字符串
  • 分割:
    • train: 13060236837.0字节, 4432447个样本
    • test: 140470163.0字节, 32181个样本
    • valid: 127234217.0字节, 29863个样本
  • 下载大小: 6417796354字节
  • 数据集大小: 13327941217.0字节

标签

  • code
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作