DhimanBose/Bangla_Masked_Language_Model_dataset_preprocessed

Name: DhimanBose/Bangla_Masked_Language_Model_dataset_preprocessed
Creator: DhimanBose
Published: 2024-02-17 06:11:36
License: 暂无描述

Hugging Face2024-02-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DhimanBose/Bangla_Masked_Language_Model_dataset_preprocessed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于文本生成任务，包含1M到10M的数据量，支持语言为孟加拉语。数据集特征包括input_ids、token_type_ids、attention_mask、word_ids和labels，均以序列形式存储。训练集包含5207879个示例，总大小为14852870908字节。

提供机构：

DhimanBose

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集