five

nglaura/arxivlay-summarization

收藏
Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nglaura/arxivlay-summarization
下载链接
链接失效反馈
官方服务:
资源简介:
ArXiv-Lay是arXiv摘要数据集的增强版本,提供了布局信息。该数据集包含文章ID、文章词序列、对应的词边界框、归一化的词边界框、摘要和文章PDF的URL。数据集分为训练集、验证集和测试集,分别包含122,189、4,374和4,356个实例。
提供机构:
nglaura
原始信息汇总

数据集概述

数据集名称

LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization

数据集详情

  • 合作机构:reciTAL, MLIA (ISIR, Sorbonne Université), Meta AI, Università di Trento
  • 数据集版本:ArXiv-Lay,为arXiv summarization数据集的增强版本,包含布局信息。

数据字段

  • article_id: 文章ID
  • article_words: 文章主体的单词序列
  • article_bboxes: 相应单词的边界框序列
  • norm_article_bboxes: 相应单词的归一化边界框序列
  • abstract: 文章摘要字符串
  • article_pdf_url: 文章PDF的URL

数据分割

  • 训练集:122,189个实例
  • 验证集:4,374个实例
  • 测试集:4,356个实例

许可证

Apache-2.0

任务类别

  • 摘要生成

语言

  • 英语

数据集别名

arXiv-Lay

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作