esenergun/BabyLMTokenized
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/esenergun/BabyLMTokenized
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int32
- name: token_type_ids
sequence: int8
- name: attention_mask
sequence: int8
splits:
- name: train_100M
num_bytes: 391325676
num_examples: 126889
- name: test
num_bytes: 20551776
num_examples: 6664
- name: dev
num_bytes: 10960536
num_examples: 3554
download_size: 70358518
dataset_size: 422837988
configs:
- config_name: default
data_files:
- split: train_100M
path: data/train_100M-*
- split: test
path: data/test-*
- split: dev
path: data/dev-*
---
提供机构:
esenergun
原始信息汇总
数据集概述
数据集特征
- input_ids:序列类型为
int32。 - token_type_ids:序列类型为
int8。 - attention_mask:序列类型为
int8。
数据集划分
- train_100M:包含126889个样本,总大小为391325676字节。
- test:包含6664个样本,总大小为20551776字节。
- dev:包含3554个样本,总大小为10960536字节。
数据集大小
- 下载大小:70358518字节。
- 数据集总大小:422837988字节。
数据文件配置
- default配置下的数据文件路径:
train_100M:位于data/train_100M-*。test:位于data/test-*。dev:位于data/dev-*。



