nglaura/pubmedlay-summarization
收藏Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nglaura/pubmedlay-summarization
下载链接
链接失效反馈官方服务:
资源简介:
PubMed-Lay是一个增强版的PubMed摘要数据集,提供了布局信息。数据集包含文章ID、文章词序列、对应的词边界框、归一化的词边界框、摘要和文章PDF的URL。数据集分为训练集、验证集和测试集,分别包含78,234、4,084和4,350个实例。
提供机构:
nglaura
原始信息汇总
数据集概述
数据集名称
PubMed-Lay
数据集描述
PubMed-Lay是PubMed摘要数据集的一个增强版本,提供了布局信息。
数据集用途
用于摘要生成任务。
数据集语言
英语(en)
数据集许可
Apache-2.0
数据集字段
article_id: 文章IDarticle_words: 文章主体的单词序列article_bboxes: 相应单词的边界框序列norm_article_bboxes: 相应单词的规范化边界框序列abstract: 文章摘要字符串article_pdf_url: 文章PDF的URL
数据集分割
- 训练集: 78,234个实例
- 验证集: 4,084个实例
- 测试集: 4,350个实例
数据集引用
latex @article{nguyen2023loralay, title={LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization}, author={Nguyen, Laura and Scialom, Thomas and Piwowarski, Benjamin and Staiano, Jacopo}, journal={arXiv preprint arXiv:2301.11312}, year={2023} }



