bigbio/mayosrs

Name: bigbio/mayosrs
Creator: bigbio
Published: 2022-12-22 15:44:58
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/mayosrs

下载链接

链接失效反馈

官方服务：

资源简介：

MayoSRS数据集由101对临床术语组成，这些术语的相关性由九名医学编码员和三名梅奥诊所的医生确定。该数据集用于语义相似性任务（STS）。

--- 语言： - 英语 BigBIO数据集语言： - 英语许可证：CC0 1.0协议多语言属性：单语言 BigBIO许可证简称：CC0_1p0 正式名称：MayoSRS 项目主页：https://conservancy.umn.edu/handle/11299/196265 BigBIO关联PubMed状态：否 BigBIO数据集公开状态：是 BigBIO对应任务：语义相似度 --- # MayoSRS 数据集卡片 ## 数据集说明 - **项目主页：** https://conservancy.umn.edu/handle/11299/196265 - **PubMed关联状态：** 否 - **公开状态：** 是 - **任务：** 语义文本相似度（STS） MayoSRS数据集包含101组临床术语对，其相关度由梅奥诊所（Mayo Clinic）的9名医疗编码员与3名医师共同评定。 ## 引用信息 @article{pedersen2007measures, title={生物医学领域的语义相似度与相关度度量方法}, author={Pedersen, Ted and Pakhomov, Serguei VS and Patwardhan, Siddharth and Chute, Christopher G}, journal={Journal of biomedical informatics}, volume={40}, number={3}, pages={288--299}, year={2007}, publisher={Elsevier} }

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: MayoSRS
语言: 英语
许可证: CC0-1.0
多语言性: 单语种
公共可用性: 是

数据集描述

内容: 包含101对临床术语，其相关性由九名医学编码员和三名医师确定。
任务: 语义相似性分析（Semantic Similarity）

引用信息

@article{pedersen2007measures, title={Measures of semantic similarity and relatedness in the biomedical domain}, author={Pedersen, Ted and Pakhomov, Serguei VS and Patwardhan, Siddharth and Chute, Christopher G}, journal={Journal of biomedical informatics}, volume={40}, number={3}, pages={288--299}, year={2007}, publisher={Elsevier} }

搜集汇总

数据集介绍

构建方式

在临床术语语义相似性研究领域，MayoSRS数据集的构建体现了严谨的医学专业知识整合过程。该数据集由梅奥诊所的九名医学编码员和三名医师共同参与标注，通过对101对临床术语进行相关性评估而形成。其构建核心在于汇聚多领域专家的临床判断，以确保术语对之间语义关联度评分的可靠性与权威性，为后续计算模型提供了基于真实医学认知的黄金标准。

特点

MayoSRS作为生物医学自然语言处理领域的基准资源，其显著特点在于规模精炼而标注质量极高。数据集专注于语义相似性计算任务，所有术语对均来源于真实的临床语境，并由跨角色的医疗专业人员共同判定，这有效保障了标注结果既符合编码规范又贴近临床实践。这种设计使得该数据集能够精准反映生物医学术语在专业场景下的复杂关联，为模型评估提供了稳定而可信的参照。

使用方法

该数据集主要用于训练和评估生物医学领域的语义相似性计算模型。研究人员可将其作为测试集，验证模型对临床术语对相关性的预测能力是否与专家判断一致。典型的使用流程包括加载术语对及其人工评定的相似度分数，继而输入模型进行计算，最后通过斯皮尔曼等级相关系数等指标量化模型输出与人工标注之间的相关性，以此衡量模型的性能。

背景与挑战

背景概述

在生物医学信息学领域，语义相似性与相关性度量是支撑临床决策支持、信息检索和自然语言处理应用的核心基础。MayoSRS数据集由明尼苏达大学的研究团队于2007年创建，主要贡献者包括Ted Pedersen、Serguei V.S. Pakhomov等学者。该数据集旨在解决生物医学术语间语义关系的量化评估问题，通过整合九位医学编码员和三位梅奥诊所医师的专业判断，构建了包含101个临床术语对的标准评估资源。其发布显著推动了生物医学文本挖掘技术的发展，为后续研究提供了可靠的基准，并在术语标准化、电子健康记录分析等领域产生了深远影响。

当前挑战

MayoSRS数据集所针对的领域挑战在于精确量化生物医学术语间的语义相似性与相关性，这一任务在临床语境中尤为复杂，因为医学术语常具有多义性、层级结构和领域特异性，传统语言学方法难以直接适用。在构建过程中，研究团队面临的主要挑战包括如何整合多位医学专家（编码员与医师）的主观判断以达成一致标注，以及确保术语对在临床实践中的代表性与覆盖面。此外，数据集规模相对有限，可能限制其在训练大规模机器学习模型时的泛化能力，这些因素共同构成了该数据集在应用与扩展中的核心难点。

常用场景

经典使用场景

在生物医学自然语言处理领域，MayoSRS数据集被广泛用于评估语义相似性模型的性能。该数据集包含101个临床术语对，由梅奥诊所的医学编码员和医师标注相关度，为研究者提供了一个标准化的基准测试平台。通过该数据集，可以系统地比较不同算法在理解医学术语语义关联方面的准确性与鲁棒性，从而推动生物医学文本挖掘技术的进步。

衍生相关工作

基于MayoSRS数据集，衍生出多项经典研究工作，如Pedersen等人提出的生物医学语义相似性度量框架，该研究比较了多种路径与信息内容方法。后续学者利用该数据集扩展了深度学习模型的应用，例如结合词嵌入技术提升术语表示学习。这些工作不仅深化了生物医学自然语言处理的理论探索，还催生了如UMLS本体集成、临床问答系统等创新方向，持续推动领域向前发展。

数据集最近研究