znhoughton/babylm-150m-v3

Name: znhoughton/babylm-150m-v3
Creator: znhoughton
Published: 2026-01-26 18:02:56
License: 暂无描述

Hugging Face2026-01-26 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/znhoughton/babylm-150m-v3

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: domain dtype: string splits: - name: train num_bytes: 729541883 num_examples: 11457649 - name: dev num_bytes: 76084074 num_examples: 1156066 download_size: 346617557 dataset_size: 805625957 configs: - config_name: default data_files: - split: train path: data/train-* - split: dev path: data/dev-* --- This dataset is derived from the official 100m token training BabyLM dataset. Source: https://osf.io/ryjfm/ ## Notes - Research use only - Mixed-source corpus (CHILDES, OpenSubtitles, Gutenberg, etc.) - Provided for reproducibility and pretraining experiments - Not an official BabyLM release

数据集信息：特征： - 名称：文本（text）数据类型：字符串（string） - 名称：领域（domain）数据类型：字符串（string）数据集划分： - 名称：训练集（train）字节大小：729541883 样本数量：11457649 - 名称：开发集（dev）字节大小：76084074 样本数量：1156066 下载大小：346617557 总数据集大小：805625957 配置项： - 配置名称：默认（default）数据文件： - 划分：训练集（train）路径：data/train-* - 划分：开发集（dev）路径：data/dev-* 本数据集源自官方1亿Token（token）训练用BabyLM数据集。来源： https://osf.io/ryjfm/ ## 注意事项 - 仅可用于研究用途 - 多源语料库（涵盖CHILDES、OpenSubtitles、Gutenberg等） - 旨在支持可复现性研究与预训练实验 - 并非BabyLM官方发布版本

提供机构：

znhoughton

5,000+

优质数据集

54 个

任务类型

进入经典数据集