five

bigbio/mayosrs

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/mayosrs
下载链接
链接失效反馈
官方服务:
资源简介:
MayoSRS数据集由101对临床术语组成,这些术语的相关性由九名医学编码员和三名梅奥诊所的医生确定。该数据集用于语义相似性任务(STS)。

--- 语言: - 英语 BigBIO数据集语言: - 英语 许可证:CC0 1.0协议 多语言属性:单语言 BigBIO许可证简称:CC0_1p0 正式名称:MayoSRS 项目主页:https://conservancy.umn.edu/handle/11299/196265 BigBIO关联PubMed状态:否 BigBIO数据集公开状态:是 BigBIO对应任务:语义相似度 --- # MayoSRS 数据集卡片 ## 数据集说明 - **项目主页:** https://conservancy.umn.edu/handle/11299/196265 - **PubMed关联状态:** 否 - **公开状态:** 是 - **任务:** 语义文本相似度(STS) MayoSRS数据集包含101组临床术语对,其相关度由梅奥诊所(Mayo Clinic)的9名医疗编码员与3名医师共同评定。 ## 引用信息 @article{pedersen2007measures, title={生物医学领域的语义相似度与相关度度量方法}, author={Pedersen, Ted and Pakhomov, Serguei VS and Patwardhan, Siddharth and Chute, Christopher G}, journal={Journal of biomedical informatics}, volume={40}, number={3}, pages={288--299}, year={2007}, publisher={Elsevier} }
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 名称: MayoSRS
  • 语言: 英语
  • 许可证: CC0-1.0
  • 多语言性: 单语种
  • 公共可用性: 是

数据集描述

  • 内容: 包含101对临床术语,其相关性由九名医学编码员和三名医师确定。
  • 任务: 语义相似性分析(Semantic Similarity)

引用信息

@article{pedersen2007measures, title={Measures of semantic similarity and relatedness in the biomedical domain}, author={Pedersen, Ted and Pakhomov, Serguei VS and Patwardhan, Siddharth and Chute, Christopher G}, journal={Journal of biomedical informatics}, volume={40}, number={3}, pages={288--299}, year={2007}, publisher={Elsevier} }

搜集汇总
数据集介绍
main_image_url
构建方式
在临床术语语义相似性研究领域,MayoSRS数据集的构建体现了严谨的医学专业知识整合过程。该数据集由梅奥诊所的九名医学编码员和三名医师共同参与标注,通过对101对临床术语进行相关性评估而形成。其构建核心在于汇聚多领域专家的临床判断,以确保术语对之间语义关联度评分的可靠性与权威性,为后续计算模型提供了基于真实医学认知的黄金标准。
特点
MayoSRS作为生物医学自然语言处理领域的基准资源,其显著特点在于规模精炼而标注质量极高。数据集专注于语义相似性计算任务,所有术语对均来源于真实的临床语境,并由跨角色的医疗专业人员共同判定,这有效保障了标注结果既符合编码规范又贴近临床实践。这种设计使得该数据集能够精准反映生物医学术语在专业场景下的复杂关联,为模型评估提供了稳定而可信的参照。
使用方法
该数据集主要用于训练和评估生物医学领域的语义相似性计算模型。研究人员可将其作为测试集,验证模型对临床术语对相关性的预测能力是否与专家判断一致。典型的使用流程包括加载术语对及其人工评定的相似度分数,继而输入模型进行计算,最后通过斯皮尔曼等级相关系数等指标量化模型输出与人工标注之间的相关性,以此衡量模型的性能。
背景与挑战
背景概述
在生物医学信息学领域,语义相似性与相关性度量是支撑临床决策支持、信息检索和自然语言处理应用的核心基础。MayoSRS数据集由明尼苏达大学的研究团队于2007年创建,主要贡献者包括Ted Pedersen、Serguei V.S. Pakhomov等学者。该数据集旨在解决生物医学术语间语义关系的量化评估问题,通过整合九位医学编码员和三位梅奥诊所医师的专业判断,构建了包含101个临床术语对的标准评估资源。其发布显著推动了生物医学文本挖掘技术的发展,为后续研究提供了可靠的基准,并在术语标准化、电子健康记录分析等领域产生了深远影响。
当前挑战
MayoSRS数据集所针对的领域挑战在于精确量化生物医学术语间的语义相似性与相关性,这一任务在临床语境中尤为复杂,因为医学术语常具有多义性、层级结构和领域特异性,传统语言学方法难以直接适用。在构建过程中,研究团队面临的主要挑战包括如何整合多位医学专家(编码员与医师)的主观判断以达成一致标注,以及确保术语对在临床实践中的代表性与覆盖面。此外,数据集规模相对有限,可能限制其在训练大规模机器学习模型时的泛化能力,这些因素共同构成了该数据集在应用与扩展中的核心难点。
常用场景
经典使用场景
在生物医学自然语言处理领域,MayoSRS数据集被广泛用于评估语义相似性模型的性能。该数据集包含101个临床术语对,由梅奥诊所的医学编码员和医师标注相关度,为研究者提供了一个标准化的基准测试平台。通过该数据集,可以系统地比较不同算法在理解医学术语语义关联方面的准确性与鲁棒性,从而推动生物医学文本挖掘技术的进步。
衍生相关工作
基于MayoSRS数据集,衍生出多项经典研究工作,如Pedersen等人提出的生物医学语义相似性度量框架,该研究比较了多种路径与信息内容方法。后续学者利用该数据集扩展了深度学习模型的应用,例如结合词嵌入技术提升术语表示学习。这些工作不仅深化了生物医学自然语言处理的理论探索,还催生了如UMLS本体集成、临床问答系统等创新方向,持续推动领域向前发展。
数据集最近研究
最新研究方向
在生物医学自然语言处理领域,MayoSRS作为经典的语义相似性评估基准,持续推动着临床术语理解的前沿探索。当前研究聚焦于利用深度学习模型,如预训练语言模型BERT及其生物医学变体BioBERT,以提升对复杂医学术语关系的捕捉能力。热点方向包括结合知识图谱增强模型对术语间隐含关联的推理,以及探索跨模态学习整合临床文本与结构化数据,旨在优化电子健康记录中的信息检索与决策支持系统。这些进展不仅深化了生物医学语义计算的精度,也为个性化医疗和临床辅助工具的发展奠定了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作