DhimanBose/Bangla_Masked_Language_Model_dataset_preprocessed
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DhimanBose/Bangla_Masked_Language_Model_dataset_preprocessed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,包含1M到10M的数据量,支持语言为孟加拉语。数据集特征包括input_ids、token_type_ids、attention_mask、word_ids和labels,均以序列形式存储。训练集包含5207879个示例,总大小为14852870908字节。
该数据集主要用于文本生成任务,包含1M到10M的数据量,支持语言为孟加拉语。数据集特征包括input_ids、token_type_ids、attention_mask、word_ids和labels,均以序列形式存储。训练集包含5207879个示例,总大小为14852870908字节。
提供机构:
DhimanBose
原始信息汇总
数据集概述
语言
- 孟加拉语 (bn)
数据规模
- 1M<n<10M
任务类别
- 文本生成
数据集信息
特征
- input_ids: 序列类型为 int32
- token_type_ids: 序列类型为 int8
- attention_mask: 序列类型为 int8
- word_ids: 序列类型为 int64
- labels: 序列类型为 int64
数据分割
- 训练集 (train)
- 字节数: 14852870908
- 样本数: 5207879
数据大小
- 下载大小: 3451024663
- 数据集大小: 14852870908
配置
- 默认配置 (default)
- 数据文件路径: data/train-*



