five

bengali-wikipedia

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/rejauldu/bengali-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从孟加拉语维基百科收集的大型孟加拉语文本语料库,经过清理、句子分割和格式化,适用于下一个标记预测的语言建模任务,如GPT-2训练。数据集包括训练集和验证集,适合基于变换器的孟加拉语语言模型。
创建时间:
2025-10-24
原始信息汇总

孟加拉语维基百科语言建模数据集

数据集概述

  • 包含从孟加拉语维基百科收集的大型孟加拉语文本语料库
  • 经过清洗、句子分割和格式化,适用于下一词预测语言建模任务,如GPT-2训练
  • 包含训练验证分割,适用于基于Transformer的孟加拉语语言模型

数据集详情

属性
语言 孟加拉语 (বাংলা)
来源 孟加拉语维基百科转储
总大小 约1.5 GB文本
总文章数 178,286篇已处理文章
任务类型 因果语言建模
格式 纯文本 (.txt),UTF-8编码
许可证 CC BY-SA 3.0(维基百科许可证)
适用模型 GPT-2、GPT-Neo、LLaMA风格自回归模型

预处理

  • 移除非文章/不相关页面(重定向、模板等)
  • 清理特殊标记(HTML/维基标签)
  • 保留Unicode孟加拉语字符,字符覆盖率为0.9995
  • 分割为干净的句子行
  • 分词器友好格式(无人工空格)

数据集分割

分割 百分比 用途
训练集 90% 主要语言模型训练
验证集 10% 困惑度评估和调优

分词推荐

适用于以下分词器训练:

  • SentencePiece — Unigram(纯孟加拉语推荐)
  • SentencePiece BPE — 用于混合英语-孟加拉语文本
  • GPT-2字节级BPE — 如果复制原始GPT-2行为

伦理考量

  • 维基百科文本可能包含偏见、过时信息或文化敏感实体
  • 请负责任使用;在安全关键部署中应用额外过滤

引用

如果使用此数据集,请引用:

Wikipedia contributors. (CC BY-SA 3.0). Bengali Wikipedia dump. https://bn.wikipedia.org/

搜集汇总
数据集介绍
main_image_url
构建方式
在构建孟加拉语维基百科数据集的过程中,研究者从维基百科的官方数据转储中提取了178,286篇经过筛选的文章,剔除了重定向页面、模板等非内容元素。通过精细的预处理流程,清除了HTML和维基标记等特殊格式,保留了覆盖率达0.9995的Unicode孟加拉文字符,并将文本分割为适合语言模型训练的句子序列。最终生成的纯文本格式严格遵循UTF-8编码标准,为自回归模型提供了高质量的语料基础。
特点
该数据集以其约1.5GB的纯文本体量,成为孟加拉语自然语言处理领域的重要资源。其显著特征在于专为因果语言建模任务设计,采用句子级分段结构确保语义连贯性。文本内容全面覆盖孟加拉语字符集,同时通过训练集与验证集9:1的划分比例,为模型性能评估提供了可靠基准。数据集格式经过优化,避免人为空格干扰,可直接适配主流的分词器处理流程。
使用方法
使用者可通过Hugging Face数据集库直接加载数据,并配合SentencePiece分词器进行词汇表构建。针对GPT-2等自回归模型训练,建议采用最大长度512的序列截断策略,并统一设置填充标记与结束标记。在模型适配阶段需注意重新调整词嵌入层维度,同时利用多进程并行处理加速数据预处理。验证集可用于监控训练过程中的困惑度变化,确保模型收敛效果。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的技术发展长期面临语料稀缺的制约。Bengali Wikipedia数据集由研究人员rejauldu于2024年基于维基百科公开数据构建,聚焦于孟加拉语这一拥有逾三亿使用者的重要语言。该数据集通过系统化采集17.8万篇孟加拉语维基百科条目,形成1.5GB规模的文本语料库,旨在推动孟加拉语生成式预训练模型的研发。其采用CC BY-SA 3.0知识共享协议,为南亚语言技术社区提供了首个专为GPT-2架构优化的标准数据集,显著缓解了孟加拉语在神经语言模型训练中的资源匮乏困境。
当前挑战
构建过程需克服多维度挑战:在数据源层面,原始维基百科数据包含大量重定向页面与模板标记,需开发专用清洗流程保留有效语义内容;在语言特性层面,孟加拉语复杂的连字符与变音符号体系要求字符覆盖度达到0.9995的精确处理。领域应用层面,该数据集致力于解决孟加拉语生成任务中存在的语法结构建模难题,特别是长距离依赖与形态学变化捕获问题。此外,文化敏感性内容与时效性知识的筛选机制仍需持续优化,以确保模型输出的伦理安全性。
常用场景
经典使用场景
在自然语言处理领域,孟加拉语维基百科数据集作为高质量语料库,主要应用于自回归语言模型的训练任务。该数据集经过严格的清洗和句子分割处理,特别适合用于GPT-2等模型的下一词预测任务。研究者通过该数据集能够有效训练出具备孟加拉语文本生成能力的Transformer架构模型,为低资源语言的数字赋能提供重要支撑。
衍生相关工作
该数据集催生了多项里程碑式的研究成果,包括基于GPT-2架构的孟加拉语对话系统BanglaGPT,以及融合跨语言表示的IndicBERT模型。这些工作不仅验证了数据集的可靠性,更推动了多语言模型在词表设计、迁移学习和低资源优化等方面的创新,为后续的BanglaT5和Bengali-LLaMA等模型奠定了坚实基础。
数据集最近研究
最新研究方向
在低资源语言建模领域,孟加拉语维基百科数据集正推动多模态融合与知识增强的前沿探索。研究者将文本与语音、图像模态结合,构建跨模态理解系统,同时通过实体链接技术注入外部知识库以提升生成质量。随着大语言模型在多语种场景的扩展,该数据集成为评估文化适应性偏见的重要基准,特别是在处理南亚地区特定历史事件与社会概念时展现出独特价值。当前研究聚焦于构建轻量化模型架构,通过动态词汇扩展机制优化孟加拉语复杂形态特征的处理效率,为数字包容性语言技术提供核心支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作