five

adzcai/babylm-eng-nld-50-50-stratified

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/adzcai/babylm-eng-nld-50-50-stratified
下载链接
链接失效反馈
官方服务:
资源简介:
BabyLM英语-荷兰语50/50分层数据集是一个双语训练语料库,用于多语言BabyLM项目。它由50%的英语和50%的荷兰语BabyBabelLM语料库组成,采样按类别分层,以保持每种语言内原始类别的比例。数据集包含英语和荷兰语的令牌计数分别为49,481,353和54,953,487,占总数的47.4%和52.6%。类别细分包括儿童可用语音、儿童书籍、儿童导向语音、儿童新闻、儿童维基、教育、填充开放字幕、填充维基百科和字幕等,每种类别在两种语言中的比例各不相同。

The BabyLM English–Dutch 50/50 Stratified dataset is a bilingual training corpus for the Multilingual BabyLM project. It combines 50% of the English and Dutch BabyBabelLM corpora, with sampling stratified by category to preserve the original category proportions within each language. The dataset includes token counts of 49,481,353 for English and 54,953,487 for Dutch, accounting for 47.4% and 52.6% of the total, respectively. The category breakdown includes child-available-speech, child-books, child-directed-speech, child-news, child-wiki, educational, padding-opensubtitles, padding-wikipedia, and subtitles, with varying proportions in each language.
提供机构:
adzcai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作