SimonSun/train_0.5M_CN_llama2

Name: SimonSun/train_0.5M_CN_llama2
Creator: SimonSun
Published: 2023-07-28 03:59:44
License: 暂无描述

Hugging Face2023-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SimonSun/train_0.5M_CN_llama2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个中文文本生成数据集，包含519,255个训练样本。数据集的特征包括instruction（指令）、input（输入）、output（输出）、input_ids（输入ID序列）、attention_mask（注意力掩码序列）和labels（标签序列）。数据集的总大小为1,853,131,088字节，下载大小为489,561,814字节。

提供机构：

SimonSun

原始信息汇总

数据集概述

基本信息

语言：中文
许可证：开放轨道（openrail）
大小类别：100K<n<1M
任务类别：文本生成

数据集特征

instruction：字符串类型
input：字符串类型
output：字符串类型
input_ids：整数序列，类型为int32
attention_mask：整数序列，类型为int8
labels：整数序列，类型为int64

数据集划分

训练集（train）
- 数据量：519255个样本
- 存储大小：1853131088字节

下载信息

下载大小：489561814字节
数据集总大小：1853131088字节

配置信息

配置名称：默认
数据文件：
- 分割：训练
- 路径：data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集