five

SimonSun/train_0.5M_CN_llama2

收藏
Hugging Face2023-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SimonSun/train_0.5M_CN_llama2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个中文文本生成数据集,包含519,255个训练样本。数据集的特征包括instruction(指令)、input(输入)、output(输出)、input_ids(输入ID序列)、attention_mask(注意力掩码序列)和labels(标签序列)。数据集的总大小为1,853,131,088字节,下载大小为489,561,814字节。

该数据集是一个中文文本生成数据集,包含519,255个训练样本。数据集的特征包括instruction(指令)、input(输入)、output(输出)、input_ids(输入ID序列)、attention_mask(注意力掩码序列)和labels(标签序列)。数据集的总大小为1,853,131,088字节,下载大小为489,561,814字节。
提供机构:
SimonSun
原始信息汇总

数据集概述

基本信息

  • 语言:中文
  • 许可证:开放轨道(openrail)
  • 大小类别:100K<n<1M
  • 任务类别:文本生成

数据集特征

  • instruction:字符串类型
  • input:字符串类型
  • output:字符串类型
  • input_ids:整数序列,类型为int32
  • attention_mask:整数序列,类型为int8
  • labels:整数序列,类型为int64

数据集划分

  • 训练集(train)
    • 数据量:519255个样本
    • 存储大小:1853131088字节

下载信息

  • 下载大小:489561814字节
  • 数据集总大小:1853131088字节

配置信息

  • 配置名称:默认
  • 数据文件
    • 分割:训练
    • 路径:data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作