SimonSun/train_0.5M_CN_llama2
收藏Hugging Face2023-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SimonSun/train_0.5M_CN_llama2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个中文文本生成数据集,包含519,255个训练样本。数据集的特征包括instruction(指令)、input(输入)、output(输出)、input_ids(输入ID序列)、attention_mask(注意力掩码序列)和labels(标签序列)。数据集的总大小为1,853,131,088字节,下载大小为489,561,814字节。
该数据集是一个中文文本生成数据集,包含519,255个训练样本。数据集的特征包括instruction(指令)、input(输入)、output(输出)、input_ids(输入ID序列)、attention_mask(注意力掩码序列)和labels(标签序列)。数据集的总大小为1,853,131,088字节,下载大小为489,561,814字节。
提供机构:
SimonSun
原始信息汇总
数据集概述
基本信息
- 语言:中文
- 许可证:开放轨道(openrail)
- 大小类别:100K<n<1M
- 任务类别:文本生成
数据集特征
- instruction:字符串类型
- input:字符串类型
- output:字符串类型
- input_ids:整数序列,类型为int32
- attention_mask:整数序列,类型为int8
- labels:整数序列,类型为int64
数据集划分
- 训练集(train)
- 数据量:519255个样本
- 存储大小:1853131088字节
下载信息
- 下载大小:489561814字节
- 数据集总大小:1853131088字节
配置信息
- 配置名称:默认
- 数据文件:
- 分割:训练
- 路径:data/train-*



