CELLS

github2024-04-03 更新2024-05-31 收录

下载链接：

https://github.com/LinguisticAnomalies/pls_retrieval

下载链接

链接失效反馈

官方服务：

资源简介：

CELLS数据集包含科学摘要和普通语言摘要的段落配对数据，用于普通语言生成任务。

The CELLS dataset comprises paired data of scientific abstracts and plain language summaries, designed for plain language generation tasks.

创建时间：

2022-09-29

原始信息汇总

数据集概述

数据集名称

CELLS: 包含科学摘要和通俗语言总结的段落配对数据，用于通俗语言生成任务。
BELLS: 段落片段配对数据，用于背景解释。
SELLS: 句子级配对数据，用于简化。
Validated dataset: 随机抽样数据，由标注者注释，用于背景解释和简化。

数据集内容

xxx.source 文件包含科学文本。
xxx.target 文件包含通俗语言文本。

数据集位置

数据集文件位于 "./data" 目录下。

数据集构建

遵循此处的指示构建 PubMed 数据集，用于 BART 预训练。

模型相关信息

BART 模型

使用 Fairseq BART 实现。
下载预训练的 BART 模型，该模型在 CNN/DM 数据集上进行了预训练，下载链接：BART 模型。
微调 BART 模型的指令和超参数可在 "./model/BART/" 找到。

定义基础解释检索

UMLS: 首先运行 "./preprocess/UMLS/umls_ner.py" 获取文本中的 NERs，然后运行 "./preprocess/UMLS/run_add_umls.sh" 在识别的 NERs 后添加定义。
Wikipedia: 首先运行 "./preprocess/Wiki/run_keywords.sh" 获取文本中最重要的单词，然后运行 "./preprocess/Wiki/run_add_wiki.sh" 从 Wikipedia 获取关键词后的定义。

RAG 模型

使用 Huggingface 实现。
微调 RAG 模型的指令和超参数可在 "./model/RAG/" 找到。

LLMs

评估使用 Llama 2 (Llama-2-70B-chat) 和 GPT-4 (2023年9月访问)。
探索了两种提示：
- "用通俗语言总结：输入"
- "用通俗语言总结，提供必要的解释：输入"
输入设置包括：
- 仅源文本
- 源文本结合使用 KeyBERT 识别的 Wikipedia 定义
生成过程配置了最大长度为 150 个令牌。

模型检查点

模型检查点下载链接：模型检查点。

搜集汇总

数据集介绍

构建方式

CELLS数据集的构建基于生物医学领域的科学文献，通过将科学摘要与对应的通俗语言摘要进行段落级别的配对，形成了一个平行语料库。该数据集的设计旨在支持生物医学领域的通俗语言生成任务，涵盖了从科学文本到普通读者易于理解的文本的转换。数据集的构建过程中，研究人员还引入了背景解释和句子级别的简化任务，进一步丰富了数据集的应用场景。

特点

CELLS数据集的特点在于其专注于生物医学领域的通俗语言生成，提供了科学摘要与通俗语言摘要的段落配对数据。此外，数据集还包含了背景解释和句子级别的简化任务，使得其能够支持多种自然语言处理任务。数据集的多样性和专业性使其成为研究生物医学文本简化与解释的重要资源。通过结合UMLS和Wikipedia的定义检索，数据集进一步增强了其在解释性任务中的实用性。

使用方法

CELLS数据集的使用方法包括基于BART模型的微调，用户可以通过Fairseq框架对模型进行训练，以适应通俗语言生成、文本简化和背景解释等任务。此外，数据集还支持基于UMLS和Wikipedia的定义检索，用户可以通过预定义的脚本提取文本中的关键术语并添加相应的解释。对于大型语言模型（如Llama 2和GPT-4），数据集提供了两种提示模板，用于评估模型在生成通俗语言摘要时的表现。用户还可以结合检索增强的方法，进一步提升模型的生成效果。

背景与挑战

背景概述

CELLS数据集是一个专注于生物医学领域简明语言生成的并行语料库，旨在将复杂的科学文本转化为易于理解的普通语言。该数据集由相关研究团队于2023年创建，并发表在《Journal of Biomedical Informatics》上。其核心研究问题是通过检索增强技术提升大语言模型在生物医学文本简化任务中的表现。CELLS数据集不仅包含科学摘要与简明语言摘要的段落配对数据，还扩展了背景解释和句子简化任务的数据支持。该数据集的发布为生物医学信息传播和公众健康素养提升提供了重要资源，推动了自然语言处理技术在医疗领域的应用。

当前挑战

CELLS数据集在构建和应用过程中面临多重挑战。首先，生物医学文本的专业性和复杂性使得简明语言生成任务极具挑战性，要求模型在保留核心信息的同时，确保生成内容的准确性和可读性。其次，数据集的构建依赖于高质量的科学摘要与简明语言摘要的配对，这对数据标注的准确性和一致性提出了较高要求。此外，检索增强技术的引入虽然提升了模型的性能，但也带来了计算资源消耗增加和检索效率优化的问题。最后，如何评估生成内容的准确性和可读性，以及如何在不同任务中平衡生成内容的简洁性与信息完整性，仍是亟待解决的难题。

常用场景

经典使用场景

在生物医学领域，CELLS数据集被广泛应用于生成易于理解的普通语言摘要。该数据集通过提供科学摘要与普通语言摘要的段落配对，支持研究人员训练和评估模型，以将复杂的生物医学文献转化为易于公众理解的内容。这一过程不仅提升了信息的可及性，还促进了科学知识的普及。

解决学术问题

CELLS数据集解决了生物医学文献与普通读者之间的语言鸿沟问题。通过提供科学摘要与普通语言摘要的配对数据，研究人员能够开发出更有效的自然语言处理模型，用于自动生成易于理解的生物医学内容。这不仅提高了科学传播的效率，还为公众提供了更准确的健康信息，具有重要的学术和社会意义。

衍生相关工作

基于CELLS数据集，研究人员开发了多种先进的自然语言处理模型，如BART和RAG模型，用于生物医学文本的简化和解释生成。这些模型不仅提升了文本生成的质量，还通过引入检索增强技术，进一步提高了生成内容的准确性和可读性。此外，CELLS数据集还催生了BELLS和SELLS等衍生数据集，用于更细粒度的文本简化任务，推动了生物医学自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集