bigbio/nlm_wsd

Name: bigbio/nlm_wsd
Creator: bigbio
Published: 2022-12-22 15:46:06
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/nlm_wsd

下载链接

链接失效反馈

官方服务：

资源简介：

为了支持使用自然语言处理技术自动解决词义歧义的研究，我们构建了这个医学文本测试集，其中的歧义由人工解析。评估者被要求检查歧义词的实例，并通过选择最能代表该意义的Metathesaurus概念来确定其意图意义。该测试集包含50个1998年MEDLINE中高度频繁的UMLS概念，每个概念有100个随机选择的歧义实例，总计5000个实例。共有11名评估者参与，其中8名完成了所有5000个实例，1名完成了56%，1名完成了44%，最后一名完成了12%的实例。评估结果仅在评估者完成给定歧义的所有100个实例时使用。

To support research on automatically resolving word sense disambiguation using natural language processing technologies, we constructed this medical text test set where ambiguities are manually resolved. Annotators were asked to examine instances of ambiguous words and determine their intended meanings by selecting the Metathesaurus concept that best represents the corresponding sense. This test set contains 50 highly frequent UMLS concepts from the 1998 MEDLINE database, with 100 randomly selected ambiguous instances per concept, totaling 5,000 instances. A total of 11 annotators participated: 8 completed all 5,000 instances, 1 completed 56% of the instances, 1 completed 44%, and the last annotator completed 12% of the instances. Only the annotation results from annotators who finished all 100 instances of a given ambiguous word sense are utilized for evaluation.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: NLM WSD
语言: 英语
许可证: UMLS_LICENSE
多语言性: 单语种
是否公开: 否
是否可在PubMed上找到: 是

数据集描述

任务: 命名实体消歧（NAMED_ENTITY_DISAMBIGUATION）
构建目的: 支持研究自动解决医学文本中的词义歧义，使用自然语言处理技术。
数据来源: 1998年MEDLINE文献，包含50个高频歧义的UMLS概念，每个概念有100个随机选定的歧义实例，总计5,000个实例。
评估者: 共11位评估者，其中8位完成全部5,000个实例，其余评估者完成比例分别为56%、44%和12%。
评估标准: 评估者需完成所有100个实例的评估，评估结果才被采用。

引用信息

@article{weeber2001developing, title = "Developing a test collection for biomedical word sense disambiguation", author = "Weeber, M and Mork, J G and Aronson, A R", journal = "Proc AMIA Symp", pages = "746--750", year = 2001, language = "en" }

搜集汇总

数据集介绍

构建方式

在生物医学文本消歧研究领域，NLM WSD数据集的构建体现了严谨的实证精神。该数据集旨在支持利用自然语言处理技术自动解决词义模糊性的研究，其核心材料来源于1998年的MEDLINE文献数据库。构建过程中，研究者精心筛选了50个在医学文献中出现频率极高且具有歧义的统一医学语言系统概念，并从当年文献中为每个概念随机抽取了100个包含该歧义词的实例，共计形成5000个待标注样本。随后，一个由11名评估员组成的团队对这些实例进行了人工消歧，他们通过选择最能代表该词在上下文中含义的元数据词库概念来判定词义。为确保标注质量，仅采纳那些评估员完成了某一歧义概念全部100个实例判定的结果，最终由8名完成了全部任务的评估员贡献了主体数据。

特点

NLM WSD数据集在生物医学自然语言处理领域展现出鲜明的专业特性。其首要特点在于高度的领域专一性，全部语料均取自权威的生物医学文献数据库MEDLINE，确保了数据的学术价值和现实相关性。数据集的规模设计精当，聚焦于50个高频歧义概念，每个概念配备100个实例，这种深度与广度的结合为模型训练与评估提供了均衡的样本。尤为关键的是，其标注体系根植于统一医学语言系统这一生物医学信息学的标准本体，使得词义消歧的结果具有明确的语义指向性和良好的可解释性。此外，数据集的构建过程强调了人工标注的一致性，通过限定采纳完整标注任务的结果，有效提升了标注数据的可靠性与权威性。

使用方法

对于致力于生物医学文本消歧的研究者而言，NLM WSD数据集提供了标准化的评估基准。该数据集主要应用于命名实体消歧任务，即判断文本中具有多义性的生物医学术语在特定上下文中所指向的确切概念。在使用时，研究者通常将数据集划分为训练集、验证集和测试集，用以开发和评估消歧算法或机器学习模型的性能。鉴于其标注基于UMLS概念标识符，模型输出的预测结果可直接与该标准本体进行映射和比对，从而计算精确率、召回率等标准评估指标。由于数据集本身为英文单语料，且标注工作已完成，它更适合作为下游任务的测试平台，用于衡量模型在真实、复杂医学文本中处理语义模糊性的能力，推动更精准的医学信息提取系统的发展。

背景与挑战

背景概述

在生物医学信息学领域，词义消歧（Word Sense Disambiguation, WSD）是自然语言处理中的核心挑战之一，旨在解决医学术语在文本中的多义性问题。NLM WSD数据集由美国国家医学图书馆（NLM）的研究团队于2001年创建，主要研究人员包括Weeber、Mork和Aronson，其核心研究问题聚焦于通过人工标注方式，为高频歧义概念提供精准的语义解析。该数据集基于1998年MEDLINE文献，选取了50个高度歧义的UMLS概念，每个概念包含100个实例，共计5000条标注数据，为生物医学文本的自动化语义理解奠定了重要基础，显著推动了临床文本挖掘和知识发现的研究进展。

当前挑战

NLM WSD数据集所解决的领域问题在于生物医学词义消歧，其挑战主要体现在医学术语的高度专业性和语境依赖性，例如同一术语在不同临床描述中可能指向截然不同的病理概念，这要求模型具备深度的领域知识推理能力。在构建过程中，数据集面临标注一致性与可扩展性的双重困难：一方面，依赖人工评估者进行精细的语义选择，导致标注进程缓慢且易受主观差异影响；另一方面，数据源自特定年份的MEDLINE文献，覆盖范围有限，难以全面反映医学术语的动态演变，限制了其在跨时代或跨领域应用中的泛化性能。

常用场景

经典使用场景

在生物医学自然语言处理领域，词义消歧（WSD）是理解专业文本的关键挑战。NLM WSD数据集作为经典资源，其核心应用场景在于为算法提供基准测试平台，特别是在处理医学文献中的歧义术语时。该数据集包含从1998年MEDLINE中选取的50个高频歧义概念，每个概念配有100个手动标注的实例，总计5000条数据，这些实例由专业评估者基于UMLS Metathesaurus进行概念映射，确保了标注的准确性和一致性。研究者利用该数据集训练和评估机器学习模型，以自动识别医学文本中词汇的特定含义，从而提升信息提取的精度。

衍生相关工作

基于NLM WSD数据集，衍生出多项经典研究工作，推动了生物医学词义消歧领域的进步。早期研究如Weeber等人（2001）的论文奠定了数据集的基础，并激发了后续算法创新，例如基于规则的方法和统计模型。近年来，随着深度学习的兴起，该数据集被用于训练神经网络模型，如BERT在生物医学领域的变体，这些模型在消歧任务中表现出色。相关成果还扩展到了多语言和跨领域应用，促进了更广泛的自然语言处理工具开发，为医学知识图谱构建和智能问答系统提供了核心支撑。

数据集最近研究