PLOS, eLife|生物医学研究数据集|科学传播数据集

github2024-05-13 更新2024-05-31 收录

生物医学研究

科学传播

下载链接：

https://github.com/TGoldsack1/Corpora_for_Lay_Summarisation

下载链接

链接失效反馈

资源简介：

每个数据集包含完整的生物医学研究文章及其专家撰写的通俗摘要。PLOS文章来自公共科学图书馆（PLOS）出版的期刊，而eLife文章则来自eLife期刊。

Each dataset comprises comprehensive biomedical research articles accompanied by lay summaries authored by experts. The PLOS articles are sourced from journals published by the Public Library of Science (PLOS), while the eLife articles are derived from the eLife journal.

创建时间：

2022-10-10

原始信息汇总

数据集概述

数据集名称

PLOS
eLife

数据集内容

PLOS：包含完整的生物医学研究文章及其专家撰写的通俗摘要，数据来源于公共科学图书馆（PLOS）出版的期刊。
eLife：同样包含生物医学研究文章及其专家撰写的通俗摘要，数据来源于eLife期刊。

数据集格式

每个数据集包含三个文件：train.json, val.json, test.json，分别对应训练集、验证集和测试集。
所有文件均为JSON格式，每个文件包含一系列JSON对象，每个对象代表一篇文章，包含以下字段：
- id: 字符串，唯一标识符
- year: 字符串，出版年份
- title: 字符串，标题
- sections: 列表，主文本，分为多个部分
- headings: 列表，每个部分的标题
- abstract: 列表，摘要
- summary: 列表，通俗摘要
- keywords: 列表，文章的关键词/主题

数据集可用性

数据集可通过以下链接下载：
- PLOS: 链接
- eLife: 链接

其他信息

数据集也通过Huggingface Datasets库提供，可通过以下代码加载： python from datasets import load_dataset dataset = load_dataset("tomasg25/scientific_lay_summarisation", "plos") # 替换"plos"为"elife"以获取eLife数据集
数据集还被用于BioLaySumm共享任务，该任务由BioNLP研讨会在ACL 2023和2024年主办。

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于PLOS和eLife两个生物医学期刊的全文研究文章，并配以专家撰写的通俗摘要。PLOS数据集源自公共科学图书馆（PLOS），而eLife数据集则来自eLife期刊。每个数据集均包含训练、验证和测试三个部分，分别存储在`train.json`、`val.json`和`test.json`文件中。这些文件以JSON格式组织，每个条目代表一篇文章，包含文章的唯一标识符、出版年份、标题、分段正文、各段标题、摘要、通俗摘要以及关键词。

特点

该数据集的主要特点在于其为生物医学领域的研究文章提供了专家撰写的通俗摘要，旨在帮助非专业读者理解复杂的科学内容。PLOS数据集规模较大，而eLife数据集则适中，两者在可读性和摘要的抽象性上有所差异，为不同应用场景提供了多样化的选择。此外，数据集的结构化格式和丰富的元数据使得其在自然语言处理任务中具有广泛的应用潜力。

使用方法

该数据集可通过Huggingface Datasets库进行加载，使用`load_dataset`函数即可轻松获取PLOS或eLife数据集。数据集的格式包括文章的唯一标识符、出版年份、标题、分段正文、各段标题、摘要、通俗摘要以及关键词，适合用于文本摘要、文本简化等自然语言处理任务。此外，数据集还支持BioLaySumm共享任务，为相关研究提供了标准化的测试集。

背景与挑战

背景概述

在科学传播与信息普及的背景下，PLOS和eLife数据集应运而生，旨在通过提供专家撰写的通俗摘要，使生物医学领域的研究成果更易于非专业人士理解。该数据集由Tomas Goldsack等人于2022年创建，发表于EMNLP 2022会议，主要研究人员包括Tomas Goldsack、Zhihao Zhang、Chenghua Lin和Carolina Scarton。其核心研究问题是如何通过自动化手段生成易于理解的科学文献摘要，从而促进跨学科知识共享与公众对科研成果的理解。该数据集的推出不仅填补了现有数据集在规模和范围上的不足，还为科学传播领域提供了新的研究方向。

当前挑战

PLOS和eLife数据集在构建过程中面临多项挑战。首先，如何从复杂的生物医学文献中提取关键信息并生成简洁易懂的摘要，是该数据集解决的核心问题之一。其次，数据集的构建需要确保摘要的准确性和可读性，这对模型的性能提出了高要求。此外，由于科学文献的多样性和专业性，如何平衡摘要的抽象性与信息保留度也是一大挑战。最后，数据集的规模和多样性限制了现有模型的泛化能力，如何设计更有效的模型以应对不同类型的科学文献，仍是未来研究的重点。

常用场景

经典使用场景

PLOS和eLife数据集的经典使用场景主要集中在科学文献的非专业摘要生成领域。这两个数据集包含了生物医学研究文章及其专家撰写的非专业摘要，为研究者提供了一个标准化的基准，用于开发和评估自动摘要生成模型。通过这些数据集，研究者可以训练模型，使其能够将复杂的科学文献简化为易于理解的非专业摘要，从而促进科学知识的普及和跨学科交流。

衍生相关工作

PLOS和eLife数据集的发布催生了一系列相关研究工作。例如，基于这些数据集，研究者开发了多种自动摘要生成模型，并在BioLaySumm共享任务中进行了广泛评估。此外，这些数据集还启发了对摘要生成任务中可读性和抽象性权衡的研究，推动了科学文献摘要生成技术的进步。这些工作不仅丰富了自然语言处理领域的研究，还为科学传播提供了新的工具和方法。

数据集最近研究

最新研究方向

在科学传播与自然语言处理领域，PLOS和eLife数据集的最新研究方向聚焦于提升科学文献的非专业读者可理解性。通过结合专家撰写的通俗摘要，这些数据集为自动生成易于理解的科学摘要提供了宝贵的资源。当前的研究热点包括利用先进的深度学习模型，如Transformer架构，优化摘要生成的准确性和流畅性，同时探索如何通过多模态数据融合提升摘要的表达效果。此外，这些数据集在BioLaySumm共享任务中的应用，进一步推动了科学文献通俗化的研究进展，为跨学科知识传播和公众科学素养的提升提供了重要支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录