five

stallone/starcoder2-selfinstruct

收藏
Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/stallone/starcoder2-selfinstruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个不同的配置:completion、conversation和source。每个配置都有其特定的特征,如输入输出、文档ID、消息内容、角色、指纹、SHA1、种子、响应、概念、提示、指令和ID等。数据集的大小、下载大小和示例数量也被详细列出。

The dataset includes three different configurations: completion, conversation, and source. Each configuration has its specific features such as input and output, document ID, message content, role, fingerprint, SHA1, seed, response, concepts, prompt, instruction, and ID. The size of the dataset, download size, and number of examples are also detailed.
提供机构:
stallone
原始信息汇总

数据集概述

配置信息

配置名称:completion

  • 特征:
    • output: 类型为 string
    • input: 类型为 string
    • doc_id: 类型为 string
  • 分割:
    • train:
      • 字节数: 67250354
      • 样本数: 50661
  • 下载大小: 31354144 字节
  • 数据集大小: 67250354 字节

配置名称:conversation

  • 特征:
    • doc_id: 类型为 string
    • messages: 列表类型,包含以下字段:
      • content: 类型为 string
      • role: 类型为 string
  • 分割:
    • train:
      • 字节数: 68516879
      • 样本数: 50661
  • 下载大小: 29621263 字节
  • 数据集大小: 68516879 字节

配置名称:source

  • 特征:
    • fingerprint: 类型为 null
    • sha1: 类型为 string
    • seed: 类型为 string
    • response: 类型为 string
    • concepts: 序列类型,元素为 string
    • prompt: 类型为 string
    • instruction: 类型为 string
    • id: 类型为 int64
    • doc_id: 类型为 string
  • 分割:
    • train:
      • 字节数: 263366720
      • 样本数: 50661
  • 下载大小: 92164473 字节
  • 数据集大小: 263366720 字节

数据文件路径

配置名称:completion

  • 数据文件:
    • train: completion/train-*

配置名称:conversation

  • 数据文件:
    • train: conversation/train-*

配置名称:source

  • 数据文件:
    • train: source/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作