HooshvareLab/pn_summary
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HooshvareLab/pn_summary
下载链接
链接失效反馈官方服务:
资源简介:
Persian News Summary (PnSummary) 是一个波斯语新闻摘要数据集,包含93,207条记录。该数据集主要用于摘要生成、文本生成、标题生成和新闻分类等任务。数据集中的新闻文章来自六个新闻机构网站,每条记录包含新闻的ID、标题、文章、摘要、类别、新闻机构等信息。数据集分为训练集、验证集和测试集,分别包含82,022条、5,592条和5,593条记录。数据集的创建者包括Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri,并且该数据集基于MIT许可证发布。
Persian News Summary (PnSummary) 是一个波斯语新闻摘要数据集,包含93,207条记录。该数据集主要用于摘要生成、文本生成、标题生成和新闻分类等任务。数据集中的新闻文章来自六个新闻机构网站,每条记录包含新闻的ID、标题、文章、摘要、类别、新闻机构等信息。数据集分为训练集、验证集和测试集,分别包含82,022条、5,592条和5,593条记录。数据集的创建者包括Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri,并且该数据集基于MIT许可证发布。
提供机构:
HooshvareLab
原始信息汇总
数据集概述
基本信息
- 数据集名称: Persian News Summary (PnSummary)
- 语言: 波斯语
- 许可证: MIT
- 多语言性: 单语
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 摘要生成、文本分类
- 任务ID: 新闻文章摘要生成、新闻文章标题生成、文本简化、主题分类
- 论文ID: pn-summary
数据集结构
特征
- id: 字符串类型,新闻的唯一标识符。
- title: 字符串类型,新闻标题。
- article: 字符串类型,新闻正文。
- summary: 字符串类型,新闻摘要。
- category: 整数类型,新闻类别(英文索引),包括经济、道路-城市、银行-保险、农业、国际、石油-能源、工业、交通、科学技术、本地、体育、政治、艺术-文化、社会、健康、研究、教育-大学、旅游。
- categories: 字符串类型,新闻类别和子类别(波斯语)。
- network: 整数类型,新闻机构名称(索引),包括Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline。
- link: 字符串类型,新闻链接。
数据分割
- 训练集: 82,022条记录,8个特征。
- 验证集: 5,592条记录,8个特征。
- 测试集: 5,593条记录,8个特征。
数据集创建
数据来源
- 源语言生产者: 数据集包含从六个新闻机构网站(Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline)爬取的多种类别的新闻文章。
标注过程
- 标注内容: 每条记录(文章)包含原始长文本和人工生成的摘要。
- 标注者: 数据集由Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri组织。
许可证信息
- 许可证: MIT许可证。
引用信息
bibtex @article{pnSummary, title={Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text Summarization}, author={Mehrdad Farahani, Mohammad Gharachorloo, Mohammad Manthouri}, year={2020}, eprint={2012.11204}, archivePrefix={arXiv}, primaryClass={cs.CL} }



