nglaura/arxivlay-summarization
收藏Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nglaura/arxivlay-summarization
下载链接
链接失效反馈官方服务:
资源简介:
ArXiv-Lay是arXiv摘要数据集的增强版本,提供了布局信息。该数据集包含文章ID、文章词序列、对应的词边界框、归一化的词边界框、摘要和文章PDF的URL。数据集分为训练集、验证集和测试集,分别包含122,189、4,374和4,356个实例。
提供机构:
nglaura
原始信息汇总
数据集概述
数据集名称
LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization
数据集详情
- 合作机构:reciTAL, MLIA (ISIR, Sorbonne Université), Meta AI, Università di Trento
- 数据集版本:ArXiv-Lay,为arXiv summarization数据集的增强版本,包含布局信息。
数据字段
article_id: 文章IDarticle_words: 文章主体的单词序列article_bboxes: 相应单词的边界框序列norm_article_bboxes: 相应单词的归一化边界框序列abstract: 文章摘要字符串article_pdf_url: 文章PDF的URL
数据分割
- 训练集:122,189个实例
- 验证集:4,374个实例
- 测试集:4,356个实例
许可证
Apache-2.0
任务类别
- 摘要生成
语言
- 英语
数据集别名
arXiv-Lay



