Small-Multilingual-Corpora

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/m0pper/Small-Multilingual-Corpora

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于ICML 2025论文的小型多语言预训练语料库，包含了阿非利堪斯语、阿姆哈拉语、阿拉伯语、英语、西班牙语、豪萨语、印地语、印度尼西亚语、马拉地语和泰卢固语等语言的语料。每种语言大约有100万到1千万的标记，用于预训练。英文语料来自维基百科的子集，阿姆哈拉语语料来自特定链接的语料库子集，其他语言的语料来自莱比锡集合。此语料库不声明所有权，仅用于方便重现研究结果。

创建时间：

2025-06-09

原始信息汇总

Small-Multilingual-Corpora 数据集概述

基本信息

数据集名称: Small-Multilingual-Corpora
数据集地址: https://huggingface.co/datasets/m0pper/Small-Multilingual-Corpora
数据集大小: 100K<n<1M
支持语言:
- 西班牙语 (es)
- 南非荷兰语 (af)
- 阿姆哈拉语 (am)
- 阿拉伯语 (ar)
- 英语 (en)
- 豪萨语 (ha)
- 印地语 (hi)
- 印尼语 (id)
- 马拉地语 (mr)
- 泰卢固语 (te)

数据集结构

每种语言包含两个分割：
- train: 训练集
- dev: 开发集
文件路径示例：
- af/af_train.txt
- af/af_dev.txt

数据来源

英语: 人类编写的英文维基百科子样本
阿姆哈拉语: 来自 Amharic_corpus 的子样本
其他语言: 来自 Leipzig Collection

数据规模

每种语言包含大约 10-100 百万个预训练数据标记

免责声明

数据集提供者不声明所有权，仅为了方便重现论文结果而提供

搜集汇总

数据集介绍

构建方式

Small-Multilingual-Corpora数据集构建过程体现了多语言资源整合的前沿方法。该数据集精选了10种语言，包括南非荷兰语、阿姆哈拉语、阿拉伯语等，每种语言包含约1000万至1亿个预训练标记。英语数据源自人工编写的英文维基百科子样本，阿姆哈拉语则来自公开可用的语料库，其余语种均选自莱比锡语料库这一权威多语言资源。数据集采用标准化处理流程，确保不同来源的语言数据具有一致的格式和质量。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，按语言代码调用特定语种。数据集采用标准文本格式，每行包含一个完整句子，兼容主流NLP工具链。建议使用时注意不同语种的字符编码特性，对于低资源语言可结合迁移学习技术。该数据集特别适合多语言预训练、跨语言迁移学习等研究场景，为保持实验可比性，建议遵循原始论文中的数据处理流程。

背景与挑战

背景概述

Small-Multilingual-Corpora数据集由Mattia Opper和N Siddharth等研究人员在2024年构建，旨在支持多语言表示学习的研究。该数据集作为ICML 2025论文《Banyan: Improved Representation Learning with Explicit Structure》的基础资源，涵盖了包括阿非利卡语、阿姆哈拉语、阿拉伯语、英语、西班牙语等在内的十种语言，每种语言包含约1000万至1亿个预训练标记。数据主要来源于莱比锡语料库和部分公开可用的语料资源，如英语维基百科的子样本。该数据集的发布为多语言自然语言处理领域的研究提供了重要的数据支持，特别是在探索显式结构对表示学习的影响方面具有显著的科学价值。

当前挑战

Small-Multilingual-Corpora数据集面临的主要挑战包括多语言数据的不平衡性和质量差异。不同语言的语料规模和数据质量存在显著差异，例如阿姆哈拉语等低资源语言的可用数据量有限，可能导致模型在这些语言上的表现不佳。数据采集过程中，如何确保各语言语料的一致性和代表性是一个关键问题，尤其是在处理非拉丁语系语言时，文本预处理和标准化工作更为复杂。此外，数据集的构建依赖于第三方语料库，其版权和许可问题需要谨慎处理，以确保数据的合法使用。这些挑战对多语言表示学习模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Small-Multilingual-Corpora数据集为多语言预训练任务提供了高质量的语料支持。该数据集涵盖了从非洲到亚洲的十种语言，包括阿姆哈拉语、阿拉伯语和印地语等低资源语言，为研究者探索跨语言表示学习提供了丰富素材。其精心筛选的语料规模和多样性特别适合验证多语言模型在低资源语言上的迁移性能。

解决学术问题

该数据集有效缓解了多语言NLP研究中低资源语言数据匮乏的瓶颈问题。通过整合莱比锡语料库等权威来源，它使得研究者能够系统性地探究语言家族特征对表示学习的影响，特别是在形态丰富语言上的词法泛化能力。相关论文验证了该数据集对改进显式结构表征的重要价值，为语言模型的参数效率研究提供了基准。

实际应用

在实际应用中，该数据集支撑了包括机器翻译系统、跨语言信息检索在内的多语言服务开发。教育科技公司利用其中的低资源语言数据改进非洲地区的学习应用，而国际组织则基于其阿拉伯语和西班牙语语料构建多语言舆情分析系统。语料的标准化处理使得不同语言的模型微调效果具有可比性。

数据集最近研究