dialect-ai/shironaam

Name: dialect-ai/shironaam
Creator: dialect-ai
Published: 2023-06-26 08:32:52
License: 暂无描述

Hugging Face2023-06-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dialect-ai/shironaam

下载链接

链接失效反馈

官方服务：

资源简介：

Shironaam数据集是一个用于孟加拉语新闻标题生成的大规模数据集，包含超过24万条新闻标题与文章配对，并附有图像标题、主题词和类别信息等辅助信息。该数据集可以用于多种任务，如文档分类、新闻聚类、关键词识别等。数据集的结构包括新闻链接、标题、文章、标签、图像标题和类别等字段。数据集分为训练集、验证集和测试集，涵盖了13个不同的领域。数据集的创建过程包括从七个著名的孟加拉语报纸中爬取数据，并确保内容的多样性和避免偏见。数据集的使用受到CC BY-NC-SA 4.0许可证的限制，仅用于非商业研究目的。

提供机构：

dialect-ai

原始信息汇总

Shironaam Corpus 数据集概述

数据集描述

数据集名称: Shironaam Corpus
语言: 孟加拉语 (Bengali)
许可证: CC BY-NC-SA 4.0
数据集大小: 100K<n<1M
任务类别:
- 文本生成
- 摘要生成
- 句子相似度
- 文本到文本生成
标签:
- 标题生成
- 低资源
- 信息提取
- 新闻聚类
- 关键词识别
- 文档分类

数据集结构

数据实例

数据集包含超过240,580个新闻标题-文章对，每个实例包括以下字段:

news_link: 新闻来源链接
head_lines: 新闻标题
article: 新闻文章内容
tags: 相关新闻文章的标签/主题词
image_caption: 新闻文章中图片的说明
category: 新闻所属类别

数据分割

数据集根据不同类别进行了分割，具体如下:

类别	训练	验证	测试	总计
娱乐	16,104	365	1,095	17,565
国家	117,566	2,664	7,994	128,226
自然	467	10	31	510
国际	30,558	692	2,078	33,329
体育	17,635	399	1,199	19,235
经济	6,447	146	438	7,032
生活健康	6,356	144	432	6,933
杂项	1,599	36	108	1,744
观点	3,501	79	238	3,819
政治	15,018	340	1,021	16,380
教育职业	4,008	90	272	4,372
科技	1,046	23	71	1,141
宗教	269	6	18	294
总计	220,574	4,994	15,012	240,580

数据集创建

数据集从七个著名的孟加拉语报纸中爬取了约900,000个原始数据样本，涵盖了多个领域，以确保内容的多样性。数据处理过程中移除了个人识别信息(PII)，并遵循了网站的robots.txt规则。

其他信息

版权: 本数据集内容受CC BY-NC-SA 4.0许可证保护，仅供非商业研究使用。
贡献者:
- Abu Ubaida Akash
- Mir Tafseer Nayeem
- Faisal Tareque Shohan
- Tanvir Islam
致谢: 本工作是Dialect AI Research Group的持续研究成果，Mir Tafseer Nayeem得到华为博士奖学金的支持。

5,000+

优质数据集

54 个

任务类型

进入经典数据集