PLOS, eLife

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/TGoldsack1/Corpora_for_Lay_Summarisation

下载链接

链接失效反馈

官方服务：

资源简介：

每个数据集包含完整的生物医学研究文章及其专家撰写的通俗摘要。PLOS文章来自公共科学图书馆（PLOS）出版的期刊，而eLife文章则来自eLife期刊。

Each dataset comprises comprehensive biomedical research articles accompanied by lay summaries authored by experts. The PLOS articles are sourced from journals published by the Public Library of Science (PLOS), while the eLife articles are derived from the eLife journal.

创建时间：

2022-10-10

原始信息汇总

数据集概述

数据集名称

PLOS
eLife

数据集内容

PLOS：包含完整的生物医学研究文章及其专家撰写的通俗摘要，数据来源于公共科学图书馆（PLOS）出版的期刊。
eLife：同样包含生物医学研究文章及其专家撰写的通俗摘要，数据来源于eLife期刊。

数据集格式

每个数据集包含三个文件：train.json, val.json, test.json，分别对应训练集、验证集和测试集。
所有文件均为JSON格式，每个文件包含一系列JSON对象，每个对象代表一篇文章，包含以下字段：
- id: 字符串，唯一标识符
- year: 字符串，出版年份
- title: 字符串，标题
- sections: 列表，主文本，分为多个部分
- headings: 列表，每个部分的标题
- abstract: 列表，摘要
- summary: 列表，通俗摘要
- keywords: 列表，文章的关键词/主题

数据集可用性

数据集可通过以下链接下载：
- PLOS: 链接
- eLife: 链接

其他信息

数据集也通过Huggingface Datasets库提供，可通过以下代码加载： python from datasets import load_dataset dataset = load_dataset("tomasg25/scientific_lay_summarisation", "plos") # 替换"plos"为"elife"以获取eLife数据集
数据集还被用于BioLaySumm共享任务，该任务由BioNLP研讨会在ACL 2023和2024年主办。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于PLOS和eLife两个生物医学期刊的全文研究文章，并配以专家撰写的通俗摘要。PLOS数据集源自公共科学图书馆（PLOS），而eLife数据集则来自eLife期刊。每个数据集均包含训练、验证和测试三个部分，分别存储在`train.json`、`val.json`和`test.json`文件中。这些文件以JSON格式组织，每个条目代表一篇文章，包含文章的唯一标识符、出版年份、标题、分段正文、各段标题、摘要、通俗摘要以及关键词。

特点

该数据集的主要特点在于其为生物医学领域的研究文章提供了专家撰写的通俗摘要，旨在帮助非专业读者理解复杂的科学内容。PLOS数据集规模较大，而eLife数据集则适中，两者在可读性和摘要的抽象性上有所差异，为不同应用场景提供了多样化的选择。此外，数据集的结构化格式和丰富的元数据使得其在自然语言处理任务中具有广泛的应用潜力。

使用方法

该数据集可通过Huggingface Datasets库进行加载，使用`load_dataset`函数即可轻松获取PLOS或eLife数据集。数据集的格式包括文章的唯一标识符、出版年份、标题、分段正文、各段标题、摘要、通俗摘要以及关键词，适合用于文本摘要、文本简化等自然语言处理任务。此外，数据集还支持BioLaySumm共享任务，为相关研究提供了标准化的测试集。

背景与挑战

背景概述

在科学传播与信息普及的背景下，PLOS和eLife数据集应运而生，旨在通过提供专家撰写的通俗摘要，使生物医学领域的研究成果更易于非专业人士理解。该数据集由Tomas Goldsack等人于2022年创建，发表于EMNLP 2022会议，主要研究人员包括Tomas Goldsack、Zhihao Zhang、Chenghua Lin和Carolina Scarton。其核心研究问题是如何通过自动化手段生成易于理解的科学文献摘要，从而促进跨学科知识共享与公众对科研成果的理解。该数据集的推出不仅填补了现有数据集在规模和范围上的不足，还为科学传播领域提供了新的研究方向。

当前挑战

PLOS和eLife数据集在构建过程中面临多项挑战。首先，如何从复杂的生物医学文献中提取关键信息并生成简洁易懂的摘要，是该数据集解决的核心问题之一。其次，数据集的构建需要确保摘要的准确性和可读性，这对模型的性能提出了高要求。此外，由于科学文献的多样性和专业性，如何平衡摘要的抽象性与信息保留度也是一大挑战。最后，数据集的规模和多样性限制了现有模型的泛化能力，如何设计更有效的模型以应对不同类型的科学文献，仍是未来研究的重点。

常用场景

经典使用场景

PLOS和eLife数据集的经典使用场景主要集中在科学文献的非专业摘要生成领域。这两个数据集包含了生物医学研究文章及其专家撰写的非专业摘要，为研究者提供了一个标准化的基准，用于开发和评估自动摘要生成模型。通过这些数据集，研究者可以训练模型，使其能够将复杂的科学文献简化为易于理解的非专业摘要，从而促进科学知识的普及和跨学科交流。

衍生相关工作

PLOS和eLife数据集的发布催生了一系列相关研究工作。例如，基于这些数据集，研究者开发了多种自动摘要生成模型，并在BioLaySumm共享任务中进行了广泛评估。此外，这些数据集还启发了对摘要生成任务中可读性和抽象性权衡的研究，推动了科学文献摘要生成技术的进步。这些工作不仅丰富了自然语言处理领域的研究，还为科学传播提供了新的工具和方法。

数据集最近研究