nilq/babylm-100M
收藏Hugging Face2024-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nilq/babylm-100M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从BabyLM挑战中精选的,包含约1亿个单词的混合领域数据,来源包括CHILDES(儿童导向的语音)、Subtitles(字幕)、BNC(语音)、TED talks(演讲)和儿童书籍(简单的书面语言)。
该数据集是从BabyLM挑战中精选的,包含约1亿个单词的混合领域数据,来源包括CHILDES(儿童导向的语音)、Subtitles(字幕)、BNC(语音)、TED talks(演讲)和儿童书籍(简单的书面语言)。
提供机构:
nilq
原始信息汇总
BabyLM 100M 数据集概述
数据集信息
-
特征:
- 名称: text
- 数据类型: string
-
分割:
- 训练集 (train):
- 字节数: 569602489
- 样本数: 10587551
- 验证集 (validation):
- 字节数: 55093483
- 样本数: 1026747
- 测试集 (test):
- 字节数: 60175255
- 样本数: 1054646
- 训练集 (train):
-
下载大小: 429629738 字节
-
数据集大小: 684871227 字节
配置
- 配置名称: default
- 数据文件:
- 训练集 (train): data/train-*
- 验证集 (validation): data/validation-*
- 测试集 (test): data/test-*
语言
- 英语 (en)
数据集名称
- BabyLM 100M



