five

HooshvareLab/pn_summary

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HooshvareLab/pn_summary
下载链接
链接失效反馈
官方服务:
资源简介:
Persian News Summary (PnSummary) 是一个波斯语新闻摘要数据集,包含93,207条记录。该数据集主要用于摘要生成、文本生成、标题生成和新闻分类等任务。数据集中的新闻文章来自六个新闻机构网站,每条记录包含新闻的ID、标题、文章、摘要、类别、新闻机构等信息。数据集分为训练集、验证集和测试集,分别包含82,022条、5,592条和5,593条记录。数据集的创建者包括Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri,并且该数据集基于MIT许可证发布。

Persian News Summary (PnSummary) 是一个波斯语新闻摘要数据集,包含93,207条记录。该数据集主要用于摘要生成、文本生成、标题生成和新闻分类等任务。数据集中的新闻文章来自六个新闻机构网站,每条记录包含新闻的ID、标题、文章、摘要、类别、新闻机构等信息。数据集分为训练集、验证集和测试集,分别包含82,022条、5,592条和5,593条记录。数据集的创建者包括Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri,并且该数据集基于MIT许可证发布。
提供机构:
HooshvareLab
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Persian News Summary (PnSummary)
  • 语言: 波斯语
  • 许可证: MIT
  • 多语言性: 单语
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 摘要生成、文本分类
  • 任务ID: 新闻文章摘要生成、新闻文章标题生成、文本简化、主题分类
  • 论文ID: pn-summary

数据集结构

特征

  • id: 字符串类型,新闻的唯一标识符。
  • title: 字符串类型,新闻标题。
  • article: 字符串类型,新闻正文。
  • summary: 字符串类型,新闻摘要。
  • category: 整数类型,新闻类别(英文索引),包括经济、道路-城市、银行-保险、农业、国际、石油-能源、工业、交通、科学技术、本地、体育、政治、艺术-文化、社会、健康、研究、教育-大学、旅游。
  • categories: 字符串类型,新闻类别和子类别(波斯语)。
  • network: 整数类型,新闻机构名称(索引),包括Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline。
  • link: 字符串类型,新闻链接。

数据分割

  • 训练集: 82,022条记录,8个特征。
  • 验证集: 5,592条记录,8个特征。
  • 测试集: 5,593条记录,8个特征。

数据集创建

数据来源

  • 源语言生产者: 数据集包含从六个新闻机构网站(Tahlilbazaar、Imna、Shana、Mehr、Irna、Khabaronline)爬取的多种类别的新闻文章。

标注过程

  • 标注内容: 每条记录(文章)包含原始长文本和人工生成的摘要。
  • 标注者: 数据集由Mehrdad Farahani、Mohammad Gharachorloo和Mohammad Manthouri组织。

许可证信息

  • 许可证: MIT许可证。

引用信息

bibtex @article{pnSummary, title={Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text Summarization}, author={Mehrdad Farahani, Mohammad Gharachorloo, Mohammad Manthouri}, year={2020}, eprint={2012.11204}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作