bengali-wikipedia
收藏Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/rejauldu/bengali-wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从孟加拉语维基百科收集的大型孟加拉语文本语料库,经过清理、句子分割和格式化,适用于下一个标记预测的语言建模任务,如GPT-2训练。数据集包括训练集和验证集,适合基于变换器的孟加拉语语言模型。
创建时间:
2025-10-24
原始信息汇总
孟加拉语维基百科语言建模数据集
数据集概述
- 包含从孟加拉语维基百科收集的大型孟加拉语文本语料库
- 经过清洗、句子分割和格式化,适用于下一词预测语言建模任务,如GPT-2训练
- 包含训练和验证分割,适用于基于Transformer的孟加拉语语言模型
数据集详情
| 属性 | 值 |
|---|---|
| 语言 | 孟加拉语 (বাংলা) |
| 来源 | 孟加拉语维基百科转储 |
| 总大小 | 约1.5 GB文本 |
| 总文章数 | 178,286篇已处理文章 |
| 任务类型 | 因果语言建模 |
| 格式 | 纯文本 (.txt),UTF-8编码 |
| 许可证 | CC BY-SA 3.0(维基百科许可证) |
| 适用模型 | GPT-2、GPT-Neo、LLaMA风格自回归模型 |
预处理
- 移除非文章/不相关页面(重定向、模板等)
- 清理特殊标记(HTML/维基标签)
- 保留Unicode孟加拉语字符,字符覆盖率为0.9995
- 分割为干净的句子行
- 分词器友好格式(无人工空格)
数据集分割
| 分割 | 百分比 | 用途 |
|---|---|---|
| 训练集 | 90% | 主要语言模型训练 |
| 验证集 | 10% | 困惑度评估和调优 |
分词推荐
适用于以下分词器训练:
- SentencePiece — Unigram(纯孟加拉语推荐)
- SentencePiece BPE — 用于混合英语-孟加拉语文本
- GPT-2字节级BPE — 如果复制原始GPT-2行为
伦理考量
- 维基百科文本可能包含偏见、过时信息或文化敏感实体
- 请负责任使用;在安全关键部署中应用额外过滤
引用
如果使用此数据集,请引用:
Wikipedia contributors. (CC BY-SA 3.0). Bengali Wikipedia dump. https://bn.wikipedia.org/
搜集汇总
数据集介绍

构建方式
在构建孟加拉语维基百科数据集的过程中,研究者从维基百科的官方数据转储中提取了178,286篇经过筛选的文章,剔除了重定向页面、模板等非内容元素。通过精细的预处理流程,清除了HTML和维基标记等特殊格式,保留了覆盖率达0.9995的Unicode孟加拉文字符,并将文本分割为适合语言模型训练的句子序列。最终生成的纯文本格式严格遵循UTF-8编码标准,为自回归模型提供了高质量的语料基础。
特点
该数据集以其约1.5GB的纯文本体量,成为孟加拉语自然语言处理领域的重要资源。其显著特征在于专为因果语言建模任务设计,采用句子级分段结构确保语义连贯性。文本内容全面覆盖孟加拉语字符集,同时通过训练集与验证集9:1的划分比例,为模型性能评估提供了可靠基准。数据集格式经过优化,避免人为空格干扰,可直接适配主流的分词器处理流程。
使用方法
使用者可通过Hugging Face数据集库直接加载数据,并配合SentencePiece分词器进行词汇表构建。针对GPT-2等自回归模型训练,建议采用最大长度512的序列截断策略,并统一设置填充标记与结束标记。在模型适配阶段需注意重新调整词嵌入层维度,同时利用多进程并行处理加速数据预处理。验证集可用于监控训练过程中的困惑度变化,确保模型收敛效果。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的技术发展长期面临语料稀缺的制约。Bengali Wikipedia数据集由研究人员rejauldu于2024年基于维基百科公开数据构建,聚焦于孟加拉语这一拥有逾三亿使用者的重要语言。该数据集通过系统化采集17.8万篇孟加拉语维基百科条目,形成1.5GB规模的文本语料库,旨在推动孟加拉语生成式预训练模型的研发。其采用CC BY-SA 3.0知识共享协议,为南亚语言技术社区提供了首个专为GPT-2架构优化的标准数据集,显著缓解了孟加拉语在神经语言模型训练中的资源匮乏困境。
当前挑战
构建过程需克服多维度挑战:在数据源层面,原始维基百科数据包含大量重定向页面与模板标记,需开发专用清洗流程保留有效语义内容;在语言特性层面,孟加拉语复杂的连字符与变音符号体系要求字符覆盖度达到0.9995的精确处理。领域应用层面,该数据集致力于解决孟加拉语生成任务中存在的语法结构建模难题,特别是长距离依赖与形态学变化捕获问题。此外,文化敏感性内容与时效性知识的筛选机制仍需持续优化,以确保模型输出的伦理安全性。
常用场景
经典使用场景
在自然语言处理领域,孟加拉语维基百科数据集作为高质量语料库,主要应用于自回归语言模型的训练任务。该数据集经过严格的清洗和句子分割处理,特别适合用于GPT-2等模型的下一词预测任务。研究者通过该数据集能够有效训练出具备孟加拉语文本生成能力的Transformer架构模型,为低资源语言的数字赋能提供重要支撑。
衍生相关工作
该数据集催生了多项里程碑式的研究成果,包括基于GPT-2架构的孟加拉语对话系统BanglaGPT,以及融合跨语言表示的IndicBERT模型。这些工作不仅验证了数据集的可靠性,更推动了多语言模型在词表设计、迁移学习和低资源优化等方面的创新,为后续的BanglaT5和Bengali-LLaMA等模型奠定了坚实基础。
数据集最近研究
最新研究方向
在低资源语言建模领域,孟加拉语维基百科数据集正推动多模态融合与知识增强的前沿探索。研究者将文本与语音、图像模态结合,构建跨模态理解系统,同时通过实体链接技术注入外部知识库以提升生成质量。随着大语言模型在多语种场景的扩展,该数据集成为评估文化适应性偏见的重要基准,特别是在处理南亚地区特定历史事件与社会概念时展现出独特价值。当前研究聚焦于构建轻量化模型架构,通过动态词汇扩展机制优化孟加拉语复杂形态特征的处理效率,为数字包容性语言技术提供核心支撑。
以上内容由遇见数据集搜集并总结生成



