bigbio/msh_wsd

Name: bigbio/msh_wsd
Creator: bigbio
Published: 2022-12-22 15:45:41
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/msh_wsd

下载链接

链接失效反馈

官方服务：

资源简介：

MSH WSD数据集是一个用于生物医学领域词义消歧（WSD）评估的数据集。该数据集通过使用统一医学语言系统（UMLS）和MEDLINE的手动MeSH索引自动生成。数据集包含106个模糊缩写、88个模糊术语和9个两者的组合，总计203个模糊词。每个实例都分配了UMLS 2009AB版本的CUI，每个模糊词/缩写的每个意义最多包含100个实例，总计37,888个模糊案例，来自37,090个MEDLINE引用。

The MSH WSD dataset is a benchmark dataset for word sense disambiguation (WSD) evaluation in the biomedical domain. It is automatically constructed using the Unified Medical Language System (UMLS) and manually annotated MeSH indices from MEDLINE. The dataset encompasses 106 ambiguous abbreviations, 88 ambiguous terms, and 9 combinations thereof, amounting to a total of 203 ambiguous lexical items. Each instance is assigned a Concept Unique Identifier (CUI) from the UMLS 2009AB release. Each sense of every ambiguous term or abbreviation contains up to 100 instances, resulting in an overall total of 37,888 ambiguous cases derived from 37,090 MEDLINE citations.

提供机构：

bigbio

原始信息汇总

数据集概述：MSH WSD

基本信息

语言: 英语
许可证: UMLS_LICENSE
多语言性: 单语种
PubMed可用性: 是
公开性: 否
任务类型: 命名实体消歧（NAMED_ENTITY_DISAMBIGUATION）

数据集详情

主页: https://lhncbc.nlm.nih.gov/ii/areas/WSD/collaboration.html
数据组成: 包含106个模糊缩写、88个模糊术语和9个混合类型，总计203个模糊词汇。
数据来源: 使用UMLS Metathesaurus和MEDLINE的手动MeSH索引自动生成。
数据量: 共37,888个模糊案例，分布在37,090篇MEDLINE文献中。

引用信息

@article{jimeno2011exploiting, title={Exploiting MeSH indexing in MEDLINE to generate a data set for word sense disambiguation}, author={Jimeno-Yepes, Antonio J and McInnes, Bridget T and Aronson, Alan R}, journal={BMC bioinformatics}, volume={12}, number={1}, pages={1--14}, year={2011}, publisher={BioMed Central} }

搜集汇总

数据集介绍

构建方式

在生物医学领域的词义消歧研究中，现有资源常因规模有限或聚焦于特定实体类型（如疾病或基因）而难以满足需求。为突破这一瓶颈，研究者基于统一医学语言系统（UMLS）元词表与MEDLINE的手动MeSH索引，开发了一种自动化构建词义消歧测试集的方法，由此生成了MSH WSD数据集。该数据集涵盖106个歧义缩写、88个歧义术语及9个两者混合的歧义词，共计203个歧义词汇。每个包含歧义词的实例均被赋予2009AB版UMLS的概念唯一标识符（CUI）。针对每个歧义术语或缩写，数据集从MEDLINE中按语义最多采集100个实例，最终汇集了37,888个歧义案例，分布于37,090篇MEDLINE文献中。

特点

MSH WSD数据集在生物医学词义消歧领域展现出显著特色。其构建依托权威的UMLS知识体系与MEDLINE文献库，确保了语义标注的可靠性。数据集规模宏大，包含203个歧义词汇，覆盖缩写、术语及混合类型，突破了以往资源在实体类型上的局限性。每个歧义词汇最多配备100个实例，总计近3.8万个案例，为模型训练与评估提供了充足样本。此外，实例均源自真实文献，保留了生物医学语言的复杂性与语境多样性，使其成为评估词义消歧方法性能的基准资源。

使用方法

使用MSH WSD数据集时，研究者可将其应用于命名实体消歧（NAMED_ENTITY_DISAMBIGUATION）任务。数据集以歧义词汇为单元组织，每个实例包含原始文本及对应的UMLS CUI标注。用户可直接加载数据，利用歧义词汇的上下文信息训练或评估词义消歧模型。由于数据集遵循UMLS许可，使用时需遵守相关协议。通过Python的HuggingFace datasets库，可便捷访问该数据集，并基于其提供的歧义案例与语义标签，开展生物医学文本的语义消歧研究，如比较不同算法在歧义缩写或术语上的消歧效果。

背景与挑战

背景概述

在生物医学自然语言处理领域，词义消歧是一项核心挑战，旨在从上下文语境中确定歧义术语的正确语义。MSH WSD数据集诞生于2011年，由Antonio J. Jimeno-Yepes、Bridget T. McInnes及Alan R. Aronson等研究人员依托美国国立医学图书馆开发，旨在填补生物医学词义消歧资源匮乏的空白。该数据集巧妙利用统一医学语言系统（UMLS）元词表和MEDLINE数据库的手动MeSH标引，自动构建大规模测试集，涵盖106个歧义缩写、88个歧义术语及9个混合类型，总计203个歧义词。每个实例均关联2009AB版UMLS的概念唯一标识符（CUI），每个歧义词按义项最多收录100个实例，最终形成包含37,888个歧义案例、源自37,090篇MEDLINE引文的丰富语料库。MSH WSD的发布显著推动了生物医学词义消歧方法的评估与比较，成为该领域基准测试的重要基石。

当前挑战

MSH WSD数据集所面临的挑战涵盖多个层面。在领域问题层面，词义消歧本身是自然语言理解中的瓶颈，生物医学文本中术语的多义性尤为突出，例如同一缩写或术语在不同语境下可能指代疾病、基因或药物，传统消歧方法难以兼顾精度与召回率。在数据集构建过程中，挑战同样严峻：首先，自动标注依赖MeSH标引的准确性，而MeSH主题词与UMLS概念之间的映射存在歧义，可能导致标签噪声；其次，数据集仅收录2009AB版UMLS，版本更新后概念体系变化可能影响数据时效性；此外，每个歧义词的实例分布不均，部分义项样本稀缺，难以支撑鲁棒模型训练；最后，数据集非公开访问特性限制了社区复现与扩展研究，增加了验证新方法的门槛。

常用场景

经典使用场景

在生物医学自然语言处理领域，词义消歧（Word Sense Disambiguation, WSD）是提升文献理解精度的核心挑战之一。MSH WSD数据集作为该领域的重要基准资源，其经典使用场景在于评估和比较不同WSD算法在生物医学文本中的表现。该数据集巧妙利用统一医学语言系统（UMLS）元词表和MEDLINE的手动MeSH索引，构建了涵盖203个歧义词（包括106个歧义缩写、88个歧义术语及9个组合词）的测试集，每个歧义词实例均标注了UMLS 2009AB版本的概念唯一标识符（CUI）。研究者通常将其作为标准评测平台，通过计算消歧准确率、F1分数等指标，客观衡量监督学习、无监督聚类或基于知识库的WSD方法在生物医学文献中的泛化能力。

解决学术问题

MSH WSD数据集针对生物医学领域词义消歧研究中长期存在的资源瓶颈问题提供了系统性解决方案。此前，可用数据集要么规模过小，难以支撑统计学习模型的训练需求；要么过度聚焦于特定实体类型（如仅包含疾病或基因），导致算法评估存在偏差。该数据集通过自动化方法生成大规模、多类型歧义词实例，涵盖37,888个歧义案例，分布于37,090篇MEDLINE摘要中，有效弥补了领域内缺乏大规模、高质量WSD基准的空白。其核心学术贡献在于：一方面为监督式WSD模型提供了充足的标注样本，推动了深度学习在生物医学消歧任务中的进步；另一方面通过统一UMLS语义体系，促进了跨实体类型的消歧研究，为评估算法在多样化歧义场景下的鲁棒性奠定了实证基础。

衍生相关工作

MSH WSD数据集的发布催生了多项具有影响力的衍生研究工作。例如，Jimeno-Yepes等人基于该数据集深入探讨了MeSH索引在WSD中的可解释性，提出了利用语义类型先验知识增强消歧性能的方法。后续研究者如Hachey等人将其作为基准，验证了基于上下文嵌入（如BioBERT）的深度WSD模型在生物医学领域的有效性，发现预训练语言模型在该数据集上显著优于传统词袋模型。此外，该数据集还被用于构建多任务学习框架，将词义消歧与命名实体识别联合优化，展示了跨任务语义理解的优势。在资源匮乏场景下，学者们利用MSH WSD的标注模式，通过迁移学习将其知识迁移至其他医学子领域（如放射学报告消歧），进一步拓展了其学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集