Juliushanhanhan/all_qa_dataset-tokenized-gemma2-9b-cxt-128
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Juliushanhanhan/all_qa_dataset-tokenized-gemma2-9b-cxt-128
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个名为input_ids的特征,这是一个int32类型的序列。数据集被分割为train部分,包含266464个例子和137495424.0字节的数据。数据集的下载大小为82780397字节,总大小为137495424.0字节。配置部分定义了一个名为default的配置,其中包含了一个指向训练数据文件的路径。
The dataset includes a feature named input_ids, which is a sequence of int32. The dataset is split into a train section, containing 266464 examples and 137495424.0 bytes of data. The download size of the dataset is 82780397 bytes, and the total size is 137495424.0 bytes. The configuration section defines a default configuration, which includes a path to the training data files.
提供机构:
Juliushanhanhan
原始信息汇总
数据集概述
数据集信息
-
特征:
- 名称:
input_ids - 类型:
int32
- 名称:
-
分割:
- 名称:
train - 字节数: 137,495,424.0
- 样本数: 266,464
- 名称:
-
下载大小: 82,780,397
-
数据集大小: 137,495,424.0
配置
- 配置名称:
default- 数据文件:
- 分割:
train - 路径:
data/train-*
- 分割:
- 数据文件:



