znhoughton/babylm-150m-v3
收藏Hugging Face2026-01-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/znhoughton/babylm-150m-v3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: domain
dtype: string
splits:
- name: train
num_bytes: 729541883
num_examples: 11457649
- name: dev
num_bytes: 76084074
num_examples: 1156066
download_size: 346617557
dataset_size: 805625957
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: dev
path: data/dev-*
---
This dataset is derived from the official 100m token training BabyLM dataset.
Source:
https://osf.io/ryjfm/
## Notes
- Research use only
- Mixed-source corpus (CHILDES, OpenSubtitles, Gutenberg, etc.)
- Provided for reproducibility and pretraining experiments
- Not an official BabyLM release
数据集信息:
特征:
- 名称:文本(text)
数据类型:字符串(string)
- 名称:领域(domain)
数据类型:字符串(string)
数据集划分:
- 名称:训练集(train)
字节大小:729541883
样本数量:11457649
- 名称:开发集(dev)
字节大小:76084074
样本数量:1156066
下载大小:346617557
总数据集大小:805625957
配置项:
- 配置名称:默认(default)
数据文件:
- 划分:训练集(train)
路径:data/train-*
- 划分:开发集(dev)
路径:data/dev-*
本数据集源自官方1亿Token(token)训练用BabyLM数据集。
来源:
https://osf.io/ryjfm/
## 注意事项
- 仅可用于研究用途
- 多源语料库(涵盖CHILDES、OpenSubtitles、Gutenberg等)
- 旨在支持可复现性研究与预训练实验
- 并非BabyLM官方发布版本
提供机构:
znhoughton



