MedMentions

Name: MedMentions
Creator: 陈-扎克伯格倡议
Published: 2019-02-26 01:53:20
License: 暂无描述

arXiv2019-02-26 更新2024-06-21 收录

下载链接：

https://github.com/chanzuckerberg/MedMentions

下载链接

链接失效反馈

官方服务：

资源简介：

MedMentions是一个大规模的生物医学文本数据集，由陈-扎克伯格倡议创建。该数据集包含超过4,000篇PubMed摘要，涵盖超过350,000个生物医学概念提及，使用超过300万个来自UMLS的概念进行标注。数据集的创建过程涉及专业标注团队使用GATE工具进行详细标注，确保高质量的标注精度。MedMentions主要用于生物医学实体识别和链接研究，支持更复杂的机器学习模型开发，以解决生物医学领域中的信息提取和文档检索问题。

MedMentions is a large-scale biomedical text dataset developed by the Chan Zuckerberg Initiative. It encompasses over 4,000 PubMed abstracts, featuring more than 350,000 biomedical concept mentions annotated with over 3 million concepts from the Unified Medical Language System (UMLS). The dataset was curated by a professional annotation team using the GATE tool for thorough annotation, guaranteeing high annotation quality and accuracy. MedMentions is primarily designed for research on biomedical named entity recognition and entity linking, supporting the development of advanced machine learning models to tackle information extraction and document retrieval challenges within the biomedical domain.

提供机构：

陈-扎克伯格倡议

创建时间：

2019-02-26

搜集汇总

数据集介绍

构建方式

在生物医学信息抽取领域，构建高质量标注数据集是推动算法发展的关键。MedMentions的构建始于从PubMed数据库中随机选取2016年至2017年间发布的5000篇摘要，经过筛选后保留4392篇生物医学英文摘要作为语料基础。标注过程由经验丰富的专业标注团队完成，他们利用GATE文本处理工具，在UMLS 2017AA版知识库中手动检索并匹配每个摘要中的科学术语，为每个提及标注最具体的UMLS概念。为确保标注质量，随机抽取部分摘要由未参与标注的生物学家进行评审，结果显示标注精确度达到97.3%。

使用方法

MedMentions以PubTator格式发布，便于研究人员直接用于生物医学命名实体识别与链接任务。数据集已预先划分为60%-20%-20%的训练集、开发集和测试集，支持模型训练与评估。使用者可基于完整数据集或ST21pv子集开发概念识别模型，其中ST21pv子集更适用于语义索引和文档检索应用。数据集中每个标注提及均包含文本跨度、UMLS概念标识及语义类型信息，允许进行提及级别和文档级别的性能评估。为促进研究可比性，论文提供了基于TaggerOne模型的基线性能指标，为后续研究建立了参考基准。

背景与挑战

背景概述

MedMentions数据集由Chan Zuckerberg Initiative的研究人员Sunil Mohan与Donghui Li于2019年正式发布，旨在应对生物医学实体识别与链接领域缺乏大规模标注数据的挑战。该数据集基于PubMed摘要构建，涵盖超过4,000篇文献与35万次概念标注，并以统一医学语言系统（UMLS）作为概念本体，覆盖超过300万生物医学概念。其核心研究问题在于为多类型生物医学实体识别提供高覆盖度的标注资源，推动自然语言处理技术在生物医学文献挖掘中的应用，显著提升了实体链接模型的训练数据规模与多样性。

当前挑战

MedMentions所解决的领域挑战在于生物医学实体识别与链接任务中概念覆盖度不足与数据稀缺问题。传统标注数据集通常局限于少数实体类型，且标注规模有限，难以支撑现代机器学习模型对复杂生物医学本体的全面学习。构建过程中的挑战包括：UMLS本体规模庞大，导致标注过程中概念匹配与消歧难度高；专业标注需依赖领域专家，成本与时间投入巨大；数据划分时面临零样本学习问题，测试集中约38%的概念未在训练数据中出现，对模型泛化能力提出严峻考验。

常用场景

经典使用场景

在生物医学自然语言处理领域，MedMentions数据集常被用于训练和评估命名实体识别与链接模型。该数据集通过标注超过4,000篇PubMed摘要，链接至统一医学语言系统（UMLS）中的数百万概念，为研究者提供了大规模、细粒度的标注语料。其经典应用场景包括构建端到端的生物医学概念识别系统，例如利用TaggerOne等半马尔可夫模型进行实体类型识别与概念链接的联合训练，以提升模型在复杂生物医学文本中的泛化能力。

解决学术问题

MedMentions解决了生物医学信息抽取中标注数据稀缺的瓶颈问题。传统数据集往往局限于少数实体类型（如疾病、基因），且标注规模较小，难以支撑现代机器学习模型的需求。该数据集通过覆盖UMLS中超过300万概念，提供了广泛的生物医学学科标注，促进了零样本学习场景下的模型开发。其意义在于为大规模生物医学概念识别建立了新的基准，推动了实体链接技术在跨学科研究中的进步。

实际应用

在实际应用中，MedMentions支持生物医学文献的语义索引与文档检索系统。例如，其子集ST21pv针对21种语义类型进行筛选，优化了信息检索的精确性，帮助研究人员快速定位相关学术论文。此外，该数据集可作为生物医学关系抽取任务的基础，为药物发现、疾病基因关联分析等下游应用提供实体标注输入，提升自动化知识图谱构建的效率和覆盖范围。

数据集最近研究