scillm/scientific_papers-archive
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scillm/scientific_papers-archive
下载链接
链接失效反馈官方服务:
资源简介:
ScientificPapers数据集包含来自ArXiv和PubMed OpenAccess仓库的两组长文档数据。每个文档包含三个特征:文章正文、摘要和章节标题,段落之间用/n分隔。数据集主要用于摘要生成任务,且为单语种(英语)。数据集的规模较大,包含超过10万条数据记录。
提供机构:
scillm
原始信息汇总
数据集概述
- 数据集名称: ScientificPapers
- 语言: 英语(English)
- 多语言性: 单语(Monolingual)
- 许可证: 未知(Unknown)
- 大小: 100K<n<1M
- 源数据集: 原始数据(Original)
- 任务类别: 摘要生成(Summarization)
- 标签: 抽象摘要(Abstractive-Summarization)
数据集结构
配置名称
- arxiv
- pubmed
数据特征
- article: 字符串类型,文档主体,段落以"/n"分隔。
- abstract: 字符串类型,文档摘要,段落以"/n"分隔。
- section_names: 字符串类型,章节标题,以"/n"分隔。
数据分割
| 名称 | train | validation | test |
|---|---|---|---|
| arxiv | 203037 | 6436 | 6440 |
| pubmed | 119924 | 6633 | 6658 |
数据集大小
- arxiv:
- 下载大小: 4.50 GB
- 数据集大小: 7.58 GB
- pubmed:
- 下载大小: 4.50 GB
- 数据集大小: 2.51 GB
数据集创建
-
源数据: 来自ArXiv和PubMed OpenAccess仓库。
-
许可证信息: 未知,需要更多信息。
-
引用信息:
@article{Cohan_2018, title={A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents}, url={http://dx.doi.org/10.18653/v1/n18-2097}, DOI={10.18653/v1/n18-2097}, journal={Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)}, publisher={Association for Computational Linguistics}, author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli}, year={2018} }



