kp-biomed

Name: kp-biomed
Creator: 南特大学, 南特中央理工学院, 法国国家科学研究中心, LS2N, UMR 6004, 法国南特
Published: 2022-11-22 17:53:23
License: 暂无描述

arXiv2022-11-22 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/taln-ls2n/kpbiomed

下载链接

链接失效反馈

官方服务：

资源简介：

kp-biomed是首个大规模生物医学关键短语生成数据集，由南特大学等机构创建。该数据集包含超过560万篇从PubMed摘要中收集的文档，旨在通过大规模数据提升生成模型的性能。数据集内容丰富，涵盖了广泛的生物医学主题，创建过程中利用了作者提供的无词汇限制的关键短语作为专家标注的代理。kp-biomed的应用领域主要集中在生物医学文献的信息检索和摘要生成，旨在解决现有数据集规模不足的问题，推动生物医学领域的关键短语生成技术发展。

kp-biomed is the first large-scale biomedical keyphrase generation dataset, created by institutions including the University of Nantes and other relevant organizations. This dataset contains over 5.6 million documents collected from PubMed abstracts, aiming to improve the performance of generative models through large-scale data. Boasting rich content covering a wide range of biomedical topics, kp-biomed utilized author-provided unrestricted keyphrases as proxies for expert annotations during its construction. Its primary application areas focus on information retrieval and abstract generation for biomedical literature, with the goal of addressing the insufficient scale of existing datasets and promoting the development of keyphrase generation technologies in the biomedical field.

提供机构：

南特大学, 南特中央理工学院, 法国国家科学研究中心, LS2N, UMR 6004, 法国南特

创建时间：

2022-11-22

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，关键词生成任务长期受限于标注数据的稀缺性。kp-biomed数据集的构建充分利用了PubMed这一权威生物医学文献数据库的资源禀赋，其构建过程体现了大规模数据采集与精细化处理的结合。研究团队基于MEDLINE/PubMed 2021年12月的基准引用记录集，从超过3300万条记录中筛选出同时包含标题、摘要和作者提供关键词的590万条记录。通过剔除1939年至2011年间发表的文献以避免历时性偏差，并对分号分隔的关键词列表进行解析与清洗，最终形成了包含560万篇摘要的大规模数据集。该数据集按发表年份随机均匀划分为训练集、验证集和测试集，并进一步构建了不同规模的训练子集以支持数据量影响研究。

特点

kp-biomed数据集在生物医学关键词生成领域具有里程碑意义，其最显著的特征在于前所未有的数据规模。该数据集包含560万篇生物医学文献摘要，其规模超过现有基准数据集KP20k十倍以上，为训练深度生成模型提供了充足的数据支撑。数据集的关键词标注完全来源于文献作者提供的原始关键词，平均每篇文档包含5.3个关键词，关键词平均长度为1.9个单词。值得注意的是，约34%的关键词属于“缺席关键词”，即未在原文中连续出现的抽象性表述，这一比例与科学文献领域的主流数据集保持一致。数据集的时间覆盖范围集中于2011年后的现代文献，确保了内容的时效性与领域代表性。

使用方法

该数据集主要服务于生物医学文本的关键词自动生成研究，其使用遵循标准化的自然语言处理流程。研究人员可通过Huggingface平台直接加载数据集，采用序列到序列的生成框架进行模型训练。在具体应用中，通常将文档标题与摘要拼接作为输入序列，将作者关键词按出现顺序排列并添加特殊分隔符作为目标序列。训练时可选用BioBART等经过生物医学领域预训练的语言模型进行微调，采用One2Seq范式生成关键词序列。评估阶段需分别计算现有关键词与缺席关键词的生成质量，使用F1@M、F1@10和R@10等指标进行多维度评测。数据集支持不同规模训练子集的对比实验，为研究数据量对模型性能的影响提供了系统化实验基础。

背景与挑战

背景概述

在生物医学信息学领域，关键词生成任务旨在从文档中自动提取或生成能够概括核心主题的词汇或短语，这对于提升文献检索效率和文档摘要质量具有关键意义。然而，长期以来，该领域缺乏大规模标注数据集，制约了生成式模型的训练与应用。2022年，法国南特大学LS2N实验室的研究团队推出了kp-biomed数据集，这是首个专为生物医学关键词生成设计的大规模资源，包含超过560万篇来自PubMed摘要的文档，并采用作者提供的关键词作为标注依据。该数据集的创建不仅填补了生物医学领域数据资源的空白，还为训练先进的Transformer模型提供了坚实基础，显著推动了关键词生成技术在信息检索和知识挖掘中的实际应用。

当前挑战

kp-biomed数据集面临的挑战主要体现在两个方面：其一，在解决生物医学关键词生成这一领域问题时，模型需同时处理“存在关键词”和“缺失关键词”的生成，其中缺失关键词指未在原文中直接出现的短语，这对模型的抽象概括能力提出了更高要求，而现有方法在此类任务上的表现仍显不足；其二，在数据集构建过程中，研究人员需克服大规模标注数据获取的困难，包括从海量PubMed记录中筛选具备标题、摘要和作者关键词的文档，并处理关键词中的标点符号问题，同时还需确保数据的时间分布均衡以避免历时性偏差，这些步骤均增加了数据处理的复杂度。

常用场景

经典使用场景

在生物医学信息学领域，文献数量的激增使得高效的信息提取与索引成为迫切需求。kp-biomed数据集作为首个大规模生物医学关键词生成数据集，其经典使用场景在于训练基于Transformer架构的生成模型，如BioBART，以自动从PubMed摘要中提取或生成关键词。这些模型能够处理数百万文档，显著提升在生物医学文本中识别“出现”与“未出现”关键词的准确性，为后续的信息检索和知识发现奠定基础。

衍生相关工作

kp-biomed的发布催生了多项相关经典工作，包括基于BioBART的预训练模型优化和跨领域关键词生成研究。例如，研究者利用该数据集验证了数据规模对生成性能的积极影响，并探索了序列到序列架构在生物医学文本上的适应性。这些工作不仅扩展了关键词生成技术在科学文献中的应用，还为后续开发如LDKP10k等大规模数据集提供了方法论参考，推动了自然语言处理在专业领域的深化发展。

数据集最近研究