five

tomasg25/scientific_lay_summarisation

收藏
Hugging Face2024-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomasg25/scientific_lay_summarisation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自PLOS和eLife期刊的生物医学研究文章,每篇文章都配有专家编写的非技术性摘要。数据集的结构包括文章正文、章节标题、关键词、文章标题、出版年份和摘要。数据集支持的任务是摘要生成,且数据格式已调整为与Transformers的`run_summarization.py`脚本兼容。数据集的语言为英语,大小在10K到100K之间,适用于摘要生成任务。

This dataset contains biomedical research articles published in the PLOS and eLife journals, with each article paired with non-technical summaries written by subject matter experts. The dataset structure encompasses full article text, section headers, keywords, article titles, publication years, and summaries. The supported task for this dataset is text summarization, and its data format has been optimized to be compatible with the `run_summarization.py` script from the Transformers library. The dataset is in English, includes between 10K and 100K samples, and is tailored for summarization tasks.
提供机构:
tomasg25
原始信息汇总

数据集概述

数据集基本信息

  • 名称: ScientificLaySummarisation
  • 语言: 英语
  • 许可证: cc-by-4.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K 和 10K<n<100K
  • 源数据集: 原始数据
  • 标签: 摘要生成、科学论文、非专业摘要、PLOS、eLife
  • 任务类别: 摘要生成

数据集内容

数据集概要

该数据集包含PLOS和eLife两个子数据集,每个子数据集包含完整的生物医学研究文章及其对应的专家编写的非技术性摘要。PLOS文章来自公共科学图书馆(PLOS)出版的多种期刊,而eLife文章来自eLife期刊。

数据实例

数据字段

  • article: 文章主体(包括摘要),各部分由" "分隔。
  • section_headings: 各部分标题,由" "分隔。
  • keywords: 描述文章主题的关键词,由" "分隔。
  • title: 文章标题。
  • year: 文章出版年份。
  • summary: 文章的非技术性摘要。

数据分割

名称 训练 验证 测试
plos 24773 1376 1376
elife 4346 241 241

数据集创建

许可证信息

  • 许可证: cc-by-4.0

引用信息

  • 论文标题: Making Science Simple: Corpora for the Lay Summarisation of Scientific Literature
  • 作者: Tomas Goldsack, Zhihao Zhang, Chenghua Lin, Carolina Scarton
  • 会议: EMNLP 2022
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作