five

zabir-nabil/bangla_newspaper_dataset

收藏
Hugging Face2024-06-03 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/zabir-nabil/bangla_newspaper_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Bangla News Dataset包含超过40万条孟加拉语新闻样本,涵盖25个以上的类别。数据集的特征包括作者、类别、孟加拉语类别、发布日期、修改日期、标签、评论数量、标题、URL、内容以及索引级别。数据集分为训练集、验证集和两个测试集,分别包含不同数量的样本和字节大小。该数据集可用于孟加拉语文本分类和生成实验。

Bangla News Dataset包含超过40万条孟加拉语新闻样本,涵盖25个以上的类别。数据集的特征包括作者、类别、孟加拉语类别、发布日期、修改日期、标签、评论数量、标题、URL、内容以及索引级别。数据集分为训练集、验证集和两个测试集,分别包含不同数量的样本和字节大小。该数据集可用于孟加拉语文本分类和生成实验。
提供机构:
zabir-nabil
原始信息汇总

Bangla News Dataset

基本信息

  • 语言: 孟加拉语 (bn)
  • 许可证: MIT
  • 数据集大小: 100K<n<1M
  • 任务类别: 文本分类
  • 美观名称: Bangla News Dataset

数据集特征

  • 作者: 字符串
  • 类别: 字符串
  • 类别_bn: 字符串
  • 发布日期: 字符串
  • 修改日期: 字符串
  • 标签: 字符串
  • 评论计数: float64
  • 标题: 字符串
  • URL: 字符串
  • 内容: 字符串
  • 索引级别0: int64

数据集分割

  • 训练集:
    • 字节数: 1381894352
    • 样本数: 265506
  • 验证集:
    • 字节数: 319702710
    • 样本数: 61274
  • 测试集1:
    • 字节数: 425596615
    • 样本数: 81691
  • 测试集2:
    • 字节数: 2973422
    • 样本数: 495

数据集大小

  • 下载大小: 787250980
  • 数据集大小: 2130167099

配置

  • 配置名称: default
    • 数据文件:
      • 训练集: data/train-*
      • 验证集: data/valid-*
      • 测试集1: data/test_1-*
      • 测试集2: data/test_2-*

数据集描述

  • 样本数量: 400k+
  • 类别数量: 25+

数据来源

  • 来源: https://www.prothomalo.com/archive

引用

  • BibTex:

    @misc{zabir_al_nazi_2020, title={Bangla Newspaper Dataset}, url={https://www.kaggle.com/dsv/1576225}, DOI={10.34740/KAGGLE/DSV/1576225}, publisher={Kaggle}, author={Zabir Al Nazi}, year={2020} }

  • APA:

    Zabir Al Nazi. (2020). Bangla Newspaper Dataset [Data set]. Kaggle. https://doi.org/10.34740/KAGGLE/DSV/1576225

  • DOI: 10.34740/kaggle/dsv/1576225

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作