PY007/slimpajama_mistral_tokenized_arxiv_book_upsample_10K_chunk_256K
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/PY007/slimpajama_mistral_tokenized_arxiv_book_upsample_10K_chunk_256K
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int64
- name: labels
dtype: int64
- name: source
list:
- name: end
dtype: int64
- name: source
dtype: string
- name: start
dtype: int64
splits:
- name: train
num_bytes: 26796181439
num_examples: 13074
download_size: 5797368278
dataset_size: 26796181439
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
dataset_info:
数据集特征:
- 名称: input_ids,类型: 64位整数序列
- 名称: labels,数据类型: 64位整数
- 名称: source,为列表类型,其子字段包括:
- 子字段名: end,数据类型: 64位整数
- 子字段名: source,数据类型: 字符串
- 子字段名: start,数据类型: 64位整数
数据集拆分:
- 拆分名称: train(训练集),占用字节数: 26796181439,样本总数: 13074
下载大小: 5797368278 字节
数据集存储大小: 26796181439 字节
数据集配置:
- 配置名称: default(默认配置),数据文件设置:
- 关联拆分: train(训练集),数据文件路径: data/train-*
提供机构:
PY007
原始信息汇总
数据集概述
数据集特征
- input_ids:序列类型为
int64。 - labels:数据类型为
int64。 - source:包含以下子特征:
- end:数据类型为
int64。 - source:数据类型为
string。 - start:数据类型为
int64。
- end:数据类型为
数据集分割
- train:包含13074个样本,总大小为26796181439字节。
数据集大小
- 下载大小:5797368278字节。
- 数据集总大小:26796181439字节。
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*



