bengali-wikipedia

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/rejauldu/bengali-wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从孟加拉语维基百科收集的大型孟加拉语文本语料库，经过清理、句子分割和格式化，适用于下一个标记预测的语言建模任务，如GPT-2训练。数据集包括训练集和验证集，适合基于变换器的孟加拉语语言模型。

创建时间：

2025-10-24

原始信息汇总

孟加拉语维基百科语言建模数据集

数据集概述

包含从孟加拉语维基百科收集的大型孟加拉语文本语料库
经过清洗、句子分割和格式化，适用于下一词预测语言建模任务，如GPT-2训练
包含训练和验证分割，适用于基于Transformer的孟加拉语语言模型

数据集详情

属性	值
语言	孟加拉语 (বাংলা)
来源	孟加拉语维基百科转储
总大小	约1.5 GB文本
总文章数	178,286篇已处理文章
任务类型	因果语言建模
格式	纯文本 (`.txt`)，UTF-8编码
许可证	CC BY-SA 3.0（维基百科许可证）
适用模型	GPT-2、GPT-Neo、LLaMA风格自回归模型

预处理

移除非文章/不相关页面（重定向、模板等）
清理特殊标记（HTML/维基标签）
保留Unicode孟加拉语字符，字符覆盖率为0.9995
分割为干净的句子行
分词器友好格式（无人工空格）

数据集分割

分割	百分比	用途
训练集	90%	主要语言模型训练
验证集	10%	困惑度评估和调优

分词推荐

适用于以下分词器训练：

SentencePiece — Unigram（纯孟加拉语推荐）
SentencePiece BPE — 用于混合英语-孟加拉语文本
GPT-2字节级BPE — 如果复制原始GPT-2行为

伦理考量

维基百科文本可能包含偏见、过时信息或文化敏感实体
请负责任使用；在安全关键部署中应用额外过滤

引用

如果使用此数据集，请引用：

Wikipedia contributors. (CC BY-SA 3.0). Bengali Wikipedia dump. https://bn.wikipedia.org/

搜集汇总

数据集介绍

构建方式

在构建孟加拉语维基百科数据集的过程中，研究者从维基百科的官方数据转储中提取了178,286篇经过筛选的文章，剔除了重定向页面、模板等非内容元素。通过精细的预处理流程，清除了HTML和维基标记等特殊格式，保留了覆盖率达0.9995的Unicode孟加拉文字符，并将文本分割为适合语言模型训练的句子序列。最终生成的纯文本格式严格遵循UTF-8编码标准，为自回归模型提供了高质量的语料基础。

特点

该数据集以其约1.5GB的纯文本体量，成为孟加拉语自然语言处理领域的重要资源。其显著特征在于专为因果语言建模任务设计，采用句子级分段结构确保语义连贯性。文本内容全面覆盖孟加拉语字符集，同时通过训练集与验证集9:1的划分比例，为模型性能评估提供了可靠基准。数据集格式经过优化，避免人为空格干扰，可直接适配主流的分词器处理流程。

使用方法

使用者可通过Hugging Face数据集库直接加载数据，并配合SentencePiece分词器进行词汇表构建。针对GPT-2等自回归模型训练，建议采用最大长度512的序列截断策略，并统一设置填充标记与结束标记。在模型适配阶段需注意重新调整词嵌入层维度，同时利用多进程并行处理加速数据预处理。验证集可用于监控训练过程中的困惑度变化，确保模型收敛效果。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的技术发展长期面临语料稀缺的制约。Bengali Wikipedia数据集由研究人员rejauldu于2024年基于维基百科公开数据构建，聚焦于孟加拉语这一拥有逾三亿使用者的重要语言。该数据集通过系统化采集17.8万篇孟加拉语维基百科条目，形成1.5GB规模的文本语料库，旨在推动孟加拉语生成式预训练模型的研发。其采用CC BY-SA 3.0知识共享协议，为南亚语言技术社区提供了首个专为GPT-2架构优化的标准数据集，显著缓解了孟加拉语在神经语言模型训练中的资源匮乏困境。

当前挑战

构建过程需克服多维度挑战：在数据源层面，原始维基百科数据包含大量重定向页面与模板标记，需开发专用清洗流程保留有效语义内容；在语言特性层面，孟加拉语复杂的连字符与变音符号体系要求字符覆盖度达到0.9995的精确处理。领域应用层面，该数据集致力于解决孟加拉语生成任务中存在的语法结构建模难题，特别是长距离依赖与形态学变化捕获问题。此外，文化敏感性内容与时效性知识的筛选机制仍需持续优化，以确保模型输出的伦理安全性。

常用场景

经典使用场景

在自然语言处理领域，孟加拉语维基百科数据集作为高质量语料库，主要应用于自回归语言模型的训练任务。该数据集经过严格的清洗和句子分割处理，特别适合用于GPT-2等模型的下一词预测任务。研究者通过该数据集能够有效训练出具备孟加拉语文本生成能力的Transformer架构模型，为低资源语言的数字赋能提供重要支撑。

衍生相关工作

该数据集催生了多项里程碑式的研究成果，包括基于GPT-2架构的孟加拉语对话系统BanglaGPT，以及融合跨语言表示的IndicBERT模型。这些工作不仅验证了数据集的可靠性，更推动了多语言模型在词表设计、迁移学习和低资源优化等方面的创新，为后续的BanglaT5和Bengali-LLaMA等模型奠定了坚实基础。

数据集最近研究