nglaura/scielo-summarization
收藏Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nglaura/scielo-summarization
下载链接
链接失效反馈官方服务:
资源简介:
SciELO是一个用于西班牙语和葡萄牙语研究论文摘要的数据集,提供了布局信息。数据集包含多个字段,如文章ID、文章内容、单词边界框、摘要和PDF链接。此外,数据集分为训练、验证和测试三个部分,并提供了每个部分的实例数量。
提供机构:
nglaura
原始信息汇总
SciELO 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 摘要生成
- 语言: 法语
- 数据集名称: SciELO
数据集描述
SciELO 是一个用于研究论文摘要生成的数据集,包含西班牙语和葡萄牙语的论文,并提供布局信息。
数据字段
article_id: 文章IDarticle_words: 文章主体的词序列article_bboxes: 相应词的边界框序列norm_article_bboxes: 相应词的归一化边界框序列abstract: 文章摘要字符串article_pdf_url: 文章PDF的URL
数据分割
数据集分为三个部分:训练集、验证集和测试集。
| 数据集分割 | 实例数量 (ES/PT) |
|---|---|
| 训练集 | 20,853 / 19,407 |
| 验证集 | 1,158 / 1,078 |
| 测试集 | 1,159 / 1,078 |
引用信息
latex @article{nguyen2023loralay, title={LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization}, author={Nguyen, Laura and Scialom, Thomas and Piwowarski, Benjamin and Staiano, Jacopo}, journal={arXiv preprint arXiv:2301.11312}, year={2023} }



