Bulgarian-BabyLM

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/climb-mao/Bulgarian-BabyLM

下载链接

链接失效反馈

官方服务：

资源简介：

保加利亚儿童语言模型数据集（Bulgarian BabyLM Dataset）是由Mila Marcheva（剑桥大学）整理的，包含从扫描的保加利亚儿童文本中提取的句子级语料库。该数据集共有28,467,275个词汇（不包括标点符号）。每个条目由一个分段的句子、分词后的句子列表、句子来源的URL和词汇数量构成。

创建时间：

2025-05-18

原始信息汇总

Bulgarian BabyLM 数据集概述

基本信息

许可证: MIT
创建者: Mila Marcheva (剑桥大学)
数据量: 28,467,275 个词元（不包括标点符号）

数据集概览

数据来源: 扫描的保加利亚儿童文本
数据级别: 句子级别
每条记录包含:
- 分句后的原始文本
- 分词结果
- 来源URL
- 词元计数

数据来源

额外发布了句子来源信息数据集: https://huggingface.co/datasets/milamarcheva/bulgarian_cds_lg

数据结构

字段名	类型	描述
MainSentencised	string	分句后的原始文本（保加利亚语）
TokenisedSent	list[string]	分词结果（小写、去除空格）
SourceLink	string (URL)	来源URL
UttLen	int	词元计数（TokenisedSent的长度）

使用建议

推荐按SourceLink分组以保持文档边界
数据集预处理程度最低，便于多语言BabyLM共享任务的参与者自行决定预处理方法

作者

Suchir Salhan
Mila Marcheva

搜集汇总

数据集介绍

构建方式

Bulgarian-BabyLM数据集通过系统化采集保加利亚儿童文本资源构建而成，其核心语料源自扫描版儿童读物内容的句子级提取。研究团队采用严谨的文本处理流程，对原始语料进行句子分割、词汇切分和标准化处理，最终形成包含2,846万词汇规模的语料库。每个数据单元完整保留了原文句子、分词结果、来源链接及词汇计数等结构化信息，为语言习得研究提供了可追溯的原始数据。

特点

该数据集显著特征体现在其专业化的儿童语言语料构成，所有文本材料均来自保加利亚儿童读物，真实反映了儿童语言接触环境。技术层面采用最小化预处理原则，仅进行基础的分词和小写化处理，完整保留原始文本的语言特征。数据结构设计科学合理，通过SourceLink字段可实现文档级语境的还原，为研究者探索语言习得过程中的语境效应提供了独特资源。

使用方法

使用该数据集时建议按照SourceLink字段进行文档分组，以保持文本的语境连贯性。研究者可直接调用预处理的TokenisedSent字段获取标准分词结果，或基于MainSentencised字段实施自定义的文本处理流程。该数据集特别适合用于儿童语言习得建模、低资源语言处理等研究场景，通过HuggingFace平台可便捷获取完整数据资源和来源信息。

背景与挑战

背景概述

Bulgarian-BabyLM数据集由剑桥大学的Mila Marcheva团队精心构建，旨在为儿童语言习得研究提供高质量的保加利亚语语料资源。该数据集收录了超过2800万词元的句子级文本，主要来源于保加利亚儿童文学作品的数字化扫描文本。作为Multilingual BabyLM Shared Task计划的重要组成部分，该语料库通过保留原始文档边界信息和最小化预处理，为研究者探索儿童导向语言的特征模式、跨语言习得机制以及低资源语言模型的预训练策略提供了宝贵的数据支持。

当前挑战

该数据集面临的核心挑战体现在两个维度：在语言学层面，儿童文学文本特有的非规范语法结构、高比例的口语化表达以及发展性语言特征，对传统自然语言处理模型的形态分析和句法解析能力提出严峻考验；在技术实现层面，扫描文本的光学字符识别误差处理、保加利亚语复杂的屈折形态导致的词汇稀疏问题，以及跨文档语义连贯性的保持，均为数据清洗和标注过程带来显著困难。如何平衡语料原始性与计算可处理性之间的关系，成为该数据集应用价值最大化的关键瓶颈。

常用场景

经典使用场景

在儿童语言习得研究领域，Bulgarian-BabyLM数据集为探索保加利亚语的语言结构和发展模式提供了重要资源。该数据集通过收录大量儿童文本，为研究者分析儿童语言中的词汇分布、句法复杂度以及语言习得路径提供了丰富素材。尤其在跨语言比较研究中，这些数据能够揭示不同语言环境下儿童语言发展的共性与差异。

解决学术问题

该数据集有效解决了儿童语言发展研究中数据稀缺的难题，为计算语言学领域提供了高质量的保加利亚语资源。通过系统整理儿童文本的语言特征，研究者能够深入探究早期词汇习得规律、语法结构发展轨迹等核心问题。这些数据特别有助于验证和发展语言习得理论模型，填补了斯拉夫语系在儿童语言研究中的空白。

衍生相关工作

围绕该数据集衍生的研究工作主要集中在多语言儿童语言模型构建领域。许多学者利用这些数据参与了Multilingual BabyLM Shared Task竞赛，推动了低资源语言处理技术的发展。相关成果已应用于跨语言迁移学习、少样本学习等前沿方向，为斯拉夫语系的自然语言处理研究开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集