five

scillm/scientific_papers-archive

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scillm/scientific_papers-archive
下载链接
链接失效反馈
官方服务:
资源简介:
ScientificPapers数据集包含来自ArXiv和PubMed OpenAccess仓库的两组长文档数据。每个文档包含三个特征:文章正文、摘要和章节标题,段落之间用/n分隔。数据集主要用于摘要生成任务,且为单语种(英语)。数据集的规模较大,包含超过10万条数据记录。
提供机构:
scillm
原始信息汇总

数据集概述

  • 数据集名称: ScientificPapers
  • 语言: 英语(English)
  • 多语言性: 单语(Monolingual)
  • 许可证: 未知(Unknown)
  • 大小: 100K<n<1M
  • 源数据集: 原始数据(Original)
  • 任务类别: 摘要生成(Summarization)
  • 标签: 抽象摘要(Abstractive-Summarization)

数据集结构

配置名称

  • arxiv
  • pubmed

数据特征

  • article: 字符串类型,文档主体,段落以"/n"分隔。
  • abstract: 字符串类型,文档摘要,段落以"/n"分隔。
  • section_names: 字符串类型,章节标题,以"/n"分隔。

数据分割

名称 train validation test
arxiv 203037 6436 6440
pubmed 119924 6633 6658

数据集大小

  • arxiv:
    • 下载大小: 4.50 GB
    • 数据集大小: 7.58 GB
  • pubmed:
    • 下载大小: 4.50 GB
    • 数据集大小: 2.51 GB

数据集创建

  • 源数据: 来自ArXiv和PubMed OpenAccess仓库。

  • 许可证信息: 未知,需要更多信息。

  • 引用信息:

    @article{Cohan_2018, title={A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents}, url={http://dx.doi.org/10.18653/v1/n18-2097}, DOI={10.18653/v1/n18-2097}, journal={Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)}, publisher={Association for Computational Linguistics}, author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli}, year={2018} }

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作