five

dialect-ai/shironaam

收藏
Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dialect-ai/shironaam
下载链接
链接失效反馈
官方服务:
资源简介:
Shironaam数据集是一个用于孟加拉语新闻标题生成的大规模数据集,包含超过24万条新闻标题与文章配对,并附有图像标题、主题词和类别信息等辅助信息。该数据集可以用于多种任务,如文档分类、新闻聚类、关键词识别等。数据集的结构包括新闻链接、标题、文章、标签、图像标题和类别等字段。数据集分为训练集、验证集和测试集,涵盖了13个不同的领域。数据集的创建过程包括从七个著名的孟加拉语报纸中爬取数据,并确保内容的多样性和避免偏见。数据集的使用受到CC BY-NC-SA 4.0许可证的限制,仅用于非商业研究目的。

Shironaam数据集是一个用于孟加拉语新闻标题生成的大规模数据集,包含超过24万条新闻标题与文章配对,并附有图像标题、主题词和类别信息等辅助信息。该数据集可以用于多种任务,如文档分类、新闻聚类、关键词识别等。数据集的结构包括新闻链接、标题、文章、标签、图像标题和类别等字段。数据集分为训练集、验证集和测试集,涵盖了13个不同的领域。数据集的创建过程包括从七个著名的孟加拉语报纸中爬取数据,并确保内容的多样性和避免偏见。数据集的使用受到CC BY-NC-SA 4.0许可证的限制,仅用于非商业研究目的。
提供机构:
dialect-ai
原始信息汇总

Shironaam Corpus 数据集概述

数据集描述

  • 数据集名称: Shironaam Corpus
  • 语言: 孟加拉语 (Bengali)
  • 许可证: CC BY-NC-SA 4.0
  • 数据集大小: 100K<n<1M
  • 任务类别:
    • 文本生成
    • 摘要生成
    • 句子相似度
    • 文本到文本生成
  • 标签:
    • 标题生成
    • 低资源
    • 信息提取
    • 新闻聚类
    • 关键词识别
    • 文档分类

数据集结构

数据实例

数据集包含超过240,580个新闻标题-文章对,每个实例包括以下字段:

  • news_link: 新闻来源链接
  • head_lines: 新闻标题
  • article: 新闻文章内容
  • tags: 相关新闻文章的标签/主题词
  • image_caption: 新闻文章中图片的说明
  • category: 新闻所属类别

数据分割

数据集根据不同类别进行了分割,具体如下:

类别 训练 验证 测试 总计
娱乐 16,104 365 1,095 17,565
国家 117,566 2,664 7,994 128,226
自然 467 10 31 510
国际 30,558 692 2,078 33,329
体育 17,635 399 1,199 19,235
经济 6,447 146 438 7,032
生活健康 6,356 144 432 6,933
杂项 1,599 36 108 1,744
观点 3,501 79 238 3,819
政治 15,018 340 1,021 16,380
教育职业 4,008 90 272 4,372
科技 1,046 23 71 1,141
宗教 269 6 18 294
总计 220,574 4,994 15,012 240,580

数据集创建

数据集从七个著名的孟加拉语报纸中爬取了约900,000个原始数据样本,涵盖了多个领域,以确保内容的多样性。数据处理过程中移除了个人识别信息(PII),并遵循了网站的robots.txt规则。

其他信息

  • 版权: 本数据集内容受CC BY-NC-SA 4.0许可证保护,仅供非商业研究使用。
  • 贡献者:
    • Abu Ubaida Akash
    • Mir Tafseer Nayeem
    • Faisal Tareque Shohan
    • Tanvir Islam
  • 致谢: 本工作是Dialect AI Research Group的持续研究成果,Mir Tafseer Nayeem得到华为博士奖学金的支持。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作