dialect-ai/shironaam
收藏Hugging Face2023-06-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dialect-ai/shironaam
下载链接
链接失效反馈官方服务:
资源简介:
Shironaam数据集是一个用于孟加拉语新闻标题生成的大规模数据集,包含超过24万条新闻标题与文章配对,并附有图像标题、主题词和类别信息等辅助信息。该数据集可以用于多种任务,如文档分类、新闻聚类、关键词识别等。数据集的结构包括新闻链接、标题、文章、标签、图像标题和类别等字段。数据集分为训练集、验证集和测试集,涵盖了13个不同的领域。数据集的创建过程包括从七个著名的孟加拉语报纸中爬取数据,并确保内容的多样性和避免偏见。数据集的使用受到CC BY-NC-SA 4.0许可证的限制,仅用于非商业研究目的。
Shironaam数据集是一个用于孟加拉语新闻标题生成的大规模数据集,包含超过24万条新闻标题与文章配对,并附有图像标题、主题词和类别信息等辅助信息。该数据集可以用于多种任务,如文档分类、新闻聚类、关键词识别等。数据集的结构包括新闻链接、标题、文章、标签、图像标题和类别等字段。数据集分为训练集、验证集和测试集,涵盖了13个不同的领域。数据集的创建过程包括从七个著名的孟加拉语报纸中爬取数据,并确保内容的多样性和避免偏见。数据集的使用受到CC BY-NC-SA 4.0许可证的限制,仅用于非商业研究目的。
提供机构:
dialect-ai
原始信息汇总
Shironaam Corpus 数据集概述
数据集描述
- 数据集名称: Shironaam Corpus
- 语言: 孟加拉语 (Bengali)
- 许可证: CC BY-NC-SA 4.0
- 数据集大小: 100K<n<1M
- 任务类别:
- 文本生成
- 摘要生成
- 句子相似度
- 文本到文本生成
- 标签:
- 标题生成
- 低资源
- 信息提取
- 新闻聚类
- 关键词识别
- 文档分类
数据集结构
数据实例
数据集包含超过240,580个新闻标题-文章对,每个实例包括以下字段:
news_link: 新闻来源链接head_lines: 新闻标题article: 新闻文章内容tags: 相关新闻文章的标签/主题词image_caption: 新闻文章中图片的说明category: 新闻所属类别
数据分割
数据集根据不同类别进行了分割,具体如下:
| 类别 | 训练 | 验证 | 测试 | 总计 |
|---|---|---|---|---|
| 娱乐 | 16,104 | 365 | 1,095 | 17,565 |
| 国家 | 117,566 | 2,664 | 7,994 | 128,226 |
| 自然 | 467 | 10 | 31 | 510 |
| 国际 | 30,558 | 692 | 2,078 | 33,329 |
| 体育 | 17,635 | 399 | 1,199 | 19,235 |
| 经济 | 6,447 | 146 | 438 | 7,032 |
| 生活健康 | 6,356 | 144 | 432 | 6,933 |
| 杂项 | 1,599 | 36 | 108 | 1,744 |
| 观点 | 3,501 | 79 | 238 | 3,819 |
| 政治 | 15,018 | 340 | 1,021 | 16,380 |
| 教育职业 | 4,008 | 90 | 272 | 4,372 |
| 科技 | 1,046 | 23 | 71 | 1,141 |
| 宗教 | 269 | 6 | 18 | 294 |
| 总计 | 220,574 | 4,994 | 15,012 | 240,580 |
数据集创建
数据集从七个著名的孟加拉语报纸中爬取了约900,000个原始数据样本,涵盖了多个领域,以确保内容的多样性。数据处理过程中移除了个人识别信息(PII),并遵循了网站的robots.txt规则。
其他信息
- 版权: 本数据集内容受CC BY-NC-SA 4.0许可证保护,仅供非商业研究使用。
- 贡献者:
- Abu Ubaida Akash
- Mir Tafseer Nayeem
- Faisal Tareque Shohan
- Tanvir Islam
- 致谢: 本工作是Dialect AI Research Group的持续研究成果,Mir Tafseer Nayeem得到华为博士奖学金的支持。



