five

poopoobabylm/BabyLM-2026-Strict-Small

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/poopoobabylm/BabyLM-2026-Strict-Small
下载链接
链接失效反馈
官方服务:
资源简介:
Detoxified 10M Strict-Small BabyLM训练数据集(BabyLM Turns 4, 2026 BabyLM)是BabyLM 2026 Strict-Small的训练集,总计包含1000万词元。数据集来源多样,包括bnc_spoken、childes、gutenberg、open_subtitles、simple_wiki和switchboard等文件,各文件的词元数量分别为762,073、2,841,101、2,557,721、2,282,877、1,531,437和24,791。所有训练数据均经过预处理,通过仇恨言论检测、情感评分和情绪分析等方法,结合性别和种族词汇表以及明确的侮辱性词汇词典,过滤了有害内容,以确保数据集中不包含可能被模型学习的有害关联。

The Detoxified 10M Strict-Small BabyLM Training Dataset (BabyLM Turns 4, 2026 BabyLM) is the BabyLM 2026 Strict-Small training set, totaling 10M tokens. The dataset is sourced from various files including bnc_spoken, childes, gutenberg, open_subtitles, simple_wiki, and switchboard, with token counts of 762,073, 2,841,101, 2,557,721, 2,282,877, 1,531,437, and 24,791 respectively. All training data underwent precorpus debiasing using a pipeline for detecting and removing toxic content, applying hate speech detection, sentiment scoring, and emotion analysis to flag problematic sentences, which were then filtered using gender and race word lists alongside an explicit slur lexicon to ensure the corpus does not carry harmful associations that could be learned by models trained on this data.
提供机构:
poopoobabylm
搜集汇总
数据集介绍
main_image_url
构建方式
BabyLM-2026-Strict-Small数据集专为2026年BabyLM挑战赛的严格赛道设计,总规模精确控制在1000万词元。该数据集精心整合了六种不同的自然语言语料库:BNC口语语料库、儿童语言交流系统语料库、古登堡计划图书语料库、开放字幕语料库、简易维基百科文本以及Switchboard电话对话语料库。每个来源均经过审慎筛选,以确保语言输入的多样性和生态效度,全面模拟儿童语言习得的丰富环境。
特点
该数据集的核心特色在于其严格的去毒化处理流程。所有原始语料均经过一套专门设计的偏见消除流水线,该流水线集成了仇恨言论检测、情感评分及情绪分析等多重机制,用以识别并滤除含有毒性内容的句子。随后,利用性别与种族词表以及明确的侮辱性词汇库进行二次过滤,确保语料中的人口统计提及与身份相关语言不携带可能被模型习得的有害偏见,从而构建一个更安全、更公平的语言学习环境。
使用方法
研究者可将此数据集直接用于预训练小规模语言模型,尤其适合计算资源受限的场景。数据集以纯文本格式提供,用户可直接加载各子语料库的train.txt文件进行拼接或单独使用。在模型评估与下游任务测试时,建议参考BabyLM挑战赛的官方基准任务集,以公平衡量模型在标准指标上的表现。同时,数据去毒化流程的具体实现细节可作为复现或扩展研究的基础,便于社区在此基础上进一步优化数据质量。
背景与挑战
背景概述
BabyLM-2026-Strict-Small数据集诞生于2026年,由Leshem Choshen、Ryan Cotterell等来自多所顶尖机构的研究人员共同创建,作为BabyLM系列挑战赛的核心训练资源。该数据集聚焦于探索语言模型在受限数据规模下的学习能力,旨在模拟儿童语言习得的认知过程,推动计算语言学与认知科学的交叉研究。其核心研究问题在于:当训练数据量削减至1000万token(相当于约10亿参数模型的万分之一)时,模型能否通过精心筛选的、接近人类语言输入质量的语料,达到甚至超越大规模数据训练的基线性能。该数据集通过融合BNC口语、CHILDES儿童语料、古登堡项目文学文本、OpenSubtitles字幕、Simple Wikipedia简易百科及Switchboard对话等多元化来源,覆盖了自然语言的多维度变异,为探究数据效率与语言泛化能力提供了标准化的实验平台,对低资源语言建模、认知启发式AI及数据压缩理论等领域产生了深远影响。
当前挑战
BabyLM-2026-Strict-Small所解决的领域核心挑战在于验证极端数据稀缺条件下语言模型的涌现能力。传统范式依赖海量语料(如数十亿token)驱动模型获得语法与语义知识,而该数据集将规模压缩至人类婴儿语言输入量级,迫使模型在信息熵极高、语法结构不完整的语料中自主归纳语言规律,这对现有Transformer架构的上下文建模能力提出了根本性质疑。构建过程中,团队面临双重挑战:一是去偏净化难题——采用毒性检测、情感评分及种族/性别词表过滤等严苛的预语料库去偏程序(借鉴Salhan et al. 2025的互动轨迹去毒化方法),在剔除有害关联时需避免过度削减自然语言中必要的身份多样性表述;二是数据来自BNC口语、CHILDES等高度异质来源,需确保跨域语料在保留原始语言变异特性的前提下,在10M token容量内实现统计一致性,以避免模型因数据不均衡而习得过度的风格偏见或领域偏差。
常用场景
经典使用场景
BabyLM-2026-Strict-Small 数据集专为模拟儿童语言习得过程中的数据稀缺性而构建,其核心使用场景聚焦于约束条件下的语言模型预训练。研究者常利用该数据集的严格小型规模(仅1000万tokens),复现人类在发育早期所接触到的有限语言输入环境。通过整合儿童导向语料(如CHILDES)、口语对话(如BNC Spoken与Switchboard)、简化文本(如Simple Wikipedia)及儿童文学(如Project Gutenberg),该数据集为探究模型在低资源情境下的语法学习、词汇习得及语用理解提供了理想的实验场域。其设计哲学强调生态效度,旨在推动语言模型从海量数据依赖转向更高效、更贴近认知发展的学习范式。
实际应用
在实际应用中,BabyLM-2026-Strict-Small 数据集可被用于开发面向儿童的教育科技产品,例如自适应阅读辅助系统与对话式学习代理。其经过去毒化和偏见过滤的语料特性,特别适合训练安全可控的儿童互动模型,如在家庭或课堂场景中提供语言反馈的智能助手。此外,该数据集可作为低保真度原型测试平台,用于评估模型在处理儿童常见语法错误与口语化表达时的鲁棒性,从而推动面向幼儿的语言生成与理解系统优化。对于资源受限的研究团队,该数据集亦为探索小模型在移动端或嵌入式设备上的部署提供了可靠的训练基底,平衡了模型效能与计算开销。
衍生相关工作
BabyLM-2026-Strict-Small 数据集衍生的经典工作主要集中于两个方向:一是互动轨迹中的教学示范研究,如Salhan等人(2025)基于该数据集探讨教师如何在儿童最近发展区内提供回应性多轮对话支持,揭示了脚手架策略对模型语言习得的影响。二是预训练去偏计算效率研究,Trhlik等人(2026)利用该小型数据集构建了低成本沙盒环境,系统追踪偏见动态,并提出面向去中心化模型训练的去偏方法论。这些工作不仅深化了对数据质量与模型行为之间关系的理解,还为在有限计算资源下民主化语言模型研究与负责任AI实践提供了可复用的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作