five

nglaura/hal-summarization

收藏
Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nglaura/hal-summarization
下载链接
链接失效反馈
官方服务:
资源简介:
HAL是一个用于法文研究论文摘要的数据集,提供了布局信息。数据集包含多个字段,如文章ID、文章内容、单词边界框、摘要等,并分为训练、验证和测试三个部分。
提供机构:
nglaura
原始信息汇总

HAL 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 摘要生成
  • 语言: 法语
  • 数据集名称: HAL

数据集描述

HAL 数据集是一个用于法语研究论文摘要生成的数据集,包含布局信息。

数据字段

  • article_id: 文章ID
  • article_words: 文章主体的单词序列
  • article_bboxes: 相应单词的边界框序列
  • norm_article_bboxes: 相应单词的归一化边界框序列
  • abstract: 文章摘要字符串
  • article_pdf_url: 文章PDF的URL

数据分割

  • 训练集: 43,379个实例
  • 验证集: 1,384个实例
  • 测试集: 1,385个实例

引用信息

latex @article{nguyen2023loralay, title={LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization}, author={Nguyen, Laura and Scialom, Thomas and Piwowarski, Benjamin and Staiano, Jacopo}, journal={arXiv preprint arXiv:2301.11312}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作