zabir-nabil/bangla_newspaper_dataset
收藏Hugging Face2024-06-03 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/zabir-nabil/bangla_newspaper_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Bangla News Dataset包含超过40万条孟加拉语新闻样本,涵盖25个以上的类别。数据集的特征包括作者、类别、孟加拉语类别、发布日期、修改日期、标签、评论数量、标题、URL、内容以及索引级别。数据集分为训练集、验证集和两个测试集,分别包含不同数量的样本和字节大小。该数据集可用于孟加拉语文本分类和生成实验。
Bangla News Dataset包含超过40万条孟加拉语新闻样本,涵盖25个以上的类别。数据集的特征包括作者、类别、孟加拉语类别、发布日期、修改日期、标签、评论数量、标题、URL、内容以及索引级别。数据集分为训练集、验证集和两个测试集,分别包含不同数量的样本和字节大小。该数据集可用于孟加拉语文本分类和生成实验。
提供机构:
zabir-nabil
原始信息汇总
Bangla News Dataset
基本信息
- 语言: 孟加拉语 (bn)
- 许可证: MIT
- 数据集大小: 100K<n<1M
- 任务类别: 文本分类
- 美观名称: Bangla News Dataset
数据集特征
- 作者: 字符串
- 类别: 字符串
- 类别_bn: 字符串
- 发布日期: 字符串
- 修改日期: 字符串
- 标签: 字符串
- 评论计数: float64
- 标题: 字符串
- URL: 字符串
- 内容: 字符串
- 索引级别0: int64
数据集分割
- 训练集:
- 字节数: 1381894352
- 样本数: 265506
- 验证集:
- 字节数: 319702710
- 样本数: 61274
- 测试集1:
- 字节数: 425596615
- 样本数: 81691
- 测试集2:
- 字节数: 2973422
- 样本数: 495
数据集大小
- 下载大小: 787250980
- 数据集大小: 2130167099
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/valid-*
- 测试集1: data/test_1-*
- 测试集2: data/test_2-*
- 数据文件:
数据集描述
- 样本数量: 400k+
- 类别数量: 25+
数据来源
- 来源: https://www.prothomalo.com/archive
引用
-
BibTex:
@misc{zabir_al_nazi_2020, title={Bangla Newspaper Dataset}, url={https://www.kaggle.com/dsv/1576225}, DOI={10.34740/KAGGLE/DSV/1576225}, publisher={Kaggle}, author={Zabir Al Nazi}, year={2020} }
-
APA:
Zabir Al Nazi. (2020). Bangla Newspaper Dataset [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/1576225
-
DOI:
10.34740/kaggle/dsv/1576225



