five

ShinoharaHare/Infinity-Instruct-Reformatted

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ShinoharaHare/Infinity-Instruct-Reformatted
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:0625和3M。每个配置包含多个特征,如id、label(包含能力的中英文描述和分类能力的中英文描述)、langdetect(语言检测)、source(来源)和messages(包含内容和角色的列表)。数据集主要用于训练,包含大量的文本数据,适用于自然语言处理任务,如语言模型训练、文本分类等。

The dataset includes two configurations: 0625 and 3M. Each configuration contains multiple features such as id, label (including descriptions of abilities in Chinese and English and categorical abilities in Chinese and English), langdetect (language detection), source, and messages (a list containing content and roles). The dataset is primarily used for training and contains a large amount of text data, suitable for natural language processing tasks such as language model training, text classification, etc.
提供机构:
ShinoharaHare
原始信息汇总

数据集概述

数据集配置

配置 0625

  • 特征:
    • id: 类型为 string
    • label: 结构化数据,包含以下字段:
      • ability_en: 类型为 string 的序列
      • ability_zh: 类型为 string 的序列
      • cate_ability_zh: 类型为 string 的序列
      • cate_ability_en: 类型为 string 的序列
    • langdetect: 类型为 string
    • source: 类型为 string
    • messages: 列表,包含以下字段:
      • content: 类型为 string
      • role: 类型为 string
  • 数据分割:
    • train: 包含 659808 个样本,占用 2449787890 字节
  • 数据文件:
    • train: 路径为 0625/train-*
  • 下载大小: 1251442996 字节
  • 数据集大小: 2449787890 字节

配置 3M

  • 特征:
    • id: 类型为 int64
    • label: 类型为 string
    • langdetect: 类型为 string
    • source: 类型为 string
    • messages: 列表,包含以下字段:
      • content: 类型为 string
      • role: 类型为 string
  • 数据分割:
    • train: 包含 3463473 个样本,占用 7495763632 字节
  • 数据文件:
    • train: 路径为 3M/train-*
  • 下载大小: 3926732573 字节
  • 数据集大小: 7495763632 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作