rejauldu/bengali-wikipedia

Name: rejauldu/bengali-wikipedia
Creator: rejauldu
Published: 2025-10-24 08:30:58
License: 暂无描述

Hugging Face2025-10-24 更新2025-11-15 收录

下载链接：

https://hf-mirror.com/datasets/rejauldu/bengali-wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从孟加拉语维基百科收集的大型孟加拉语文本语料库，经过清理、句子切分和格式化，适用于下一个标记预测的语言建模任务，例如GPT-2训练。它包括训练和验证两个部分，适合基于变压器的孟加拉语语言模型。

This dataset contains a large Bengali text corpus collected from Bengali Wikipedia. It is cleaned, sentence-segmented, and formatted for next-token prediction language modeling tasks such as GPT-2 training. It includes train and validation splits, suitable for transformer-based Bengali language models.

提供机构：

rejauldu

5,000+

优质数据集

54 个

任务类型

进入经典数据集