bigbio/umnsrs

Name: bigbio/umnsrs
Creator: bigbio
Published: 2022-12-22 15:47:36
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/umnsrs

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en bigbio_language: - English license: cc0-1.0 multilinguality: monolingual bigbio_license_shortname: CC0_1p0 pretty_name: UMNSRS homepage: https://conservancy.umn.edu/handle/11299/196265/ bigbio_pubmed: False bigbio_public: True bigbio_tasks: - SEMANTIC_SIMILARITY --- # Dataset Card for UMNSRS ## Dataset Description - **Homepage:** https://conservancy.umn.edu/handle/11299/196265/ - **Pubmed:** False - **Public:** True - **Tasks:** STS UMNSRS, developed by Pakhomov, et al., consists of 725 clinical term pairs whose semantic similarity and relatedness. The similarity and relatedness of each term pair was annotated based on a continuous scale by having the resident touch a bar on a touch sensitive computer screen to indicate the degree of similarity or relatedness. The following subsets are available: - similarity: A set of 566 UMLS concept pairs manually rated for semantic similarity (e.g. whale-dolphin) using a continuous response scale. - relatedness: A set of 588 UMLS concept pairs manually rated for semantic relatedness (e.g. needle-thread) using a continuous response scale. - similarity_mod: Modification of the UMNSRS-Similarity dataset to exclude control samples and those pairs that did not match text in clinical, biomedical and general English corpora. Exact modifications are detailed in the paper (Corpus Domain Effects on Distributional Semantic Modeling of Medical Terms. Serguei V.S. Pakhomov, Greg Finley, Reed McEwan, Yan Wang, and Genevieve B. Melton. Bioinformatics. 2016; 32(23):3635-3644). The resulting dataset contains 449 pairs. - relatedness_mod: Modification of the UMNSRS-Relatedness dataset to exclude control samples and those pairs that did not match text in clinical, biomedical and general English corpora. Exact modifications are detailed in the paper (Corpus Domain Effects on Distributional Semantic Modeling of Medical Terms. Serguei V.S. Pakhomov, Greg Finley, Reed McEwan, Yan Wang, and Genevieve B. Melton. Bioinformatics. 2016; 32(23):3635-3644). The resulting dataset contains 458 pairs. ## Citation Information ``` @inproceedings{pakhomov2010semantic, title={Semantic similarity and relatedness between clinical terms: an experimental study}, author={Pakhomov, Serguei and McInnes, Bridget and Adam, Terrence and Liu, Ying and Pedersen, Ted and Melton, Genevieve B}, booktitle={AMIA annual symposium proceedings}, volume={2010}, pages={572}, year={2010}, organization={American Medical Informatics Association} } ```

--- language: 语言 - 英语 bigbio_language: - 英语 license: 知识共享CC0 1.0通用公共许可协议 multilinguality: 单语 bigbio_license_shortname: CC0_1p0 pretty_name: UMNSRS homepage: https://conservancy.umn.edu/handle/11299/196265/ bigbio_pubmed: 否 bigbio_public: 是 bigbio_tasks: - 语义相似度（SEMANTIC_SIMILARITY） --- # UMNSRS 数据集卡片 ## 数据集描述 - **主页:** https://conservancy.umn.edu/handle/11299/196265/ - **关联PubMed:** 否 - **公开状态:** 是 - **任务:** 语义相似度任务（STS）由Pakhomov等人研发的UMNSRS数据集包含725对临床术语，所有术语对的语义相似度与相关性均已完成标注。每对术语的相似度与相关性均采用连续量表进行标注：由住院医师通过触摸触控电脑屏幕上的滑块，指示术语对的相似或相关程度。该数据集提供以下子集： - **相似度子集：** 包含566对**统一医学语言系统（Unified Medical Language System，UMLS）**概念对，采用连续响应量表对其语义相似度进行人工标注（例如：鲸鱼-海豚）。 - **相关性子集：** 包含588对UMLS概念对，采用连续响应量表对其语义相关性进行人工标注（例如：针-线）。 - **修正版相似度子集：** 对原始UMNSRS-相似度数据集进行优化，剔除其中的对照样本以及未在临床、生物医学与通用英语语料库中出现匹配文本的术语对。具体优化细节详见论文《Corpus Domain Effects on Distributional Semantic Modeling of Medical Terms》（作者：Serguei V.S. Pakhomov、Greg Finley、Reed McEwan、Yan Wang、Genevieve B. Melton，发表于《Bioinformatics》，2016年，32(23):3635-3644）。优化后的数据集共包含449对术语对。 - **修正版相关性子集：** 对原始UMNSRS-相关性数据集进行优化，剔除其中的对照样本以及未在临床、生物医学与通用英语语料库中出现匹配文本的术语对。具体优化细节详见上述同一篇论文。优化后的数据集共包含458对术语对。 ## 引用信息 @inproceedings{pakhomov2010semantic, title={Semantic similarity and relatedness between clinical terms: an experimental study}, author={Pakhomov, Serguei and McInnes, Bridget and Adam, Terrence and Liu, Ying and Pedersen, Ted and Melton, Genevieve B}, booktitle={AMIA annual symposium proceedings}, volume={2010}, pages={572}, year={2010}, organization={American Medical Informatics Association} }

提供机构：

bigbio

原始信息汇总

数据集概述

名称: UMNSRS

语言: 英语

许可: CC0-1.0

多语言性: 单语

任务: 语义相似性（SEMANTIC_SIMILARITY）

数据集详情

开发者: Pakhomov, et al.
内容: 包含725个临床术语对，用于评估语义相似性和相关性。
评估方法: 通过居民在触摸屏上操作，使用连续响应尺度进行标注。

数据集子集

相似性（similarity）:
- 数量: 566对UMLS概念对
- 用途: 手动评估语义相似性
相关性（relatedness）:
- 数量: 588对UMLS概念对
- 用途: 手动评估语义相关性
相似性修正（similarity_mod）:
- 数量: 449对
- 修改详情: 排除控制样本及未匹配文本的样本，详细修改见相关论文。
相关性修正（relatedness_mod）:
- 数量: 458对
- 修改详情: 排除控制样本及未匹配文本的样本，详细修改见相关论文。

引用信息

@inproceedings{pakhomov2010semantic, title={Semantic similarity and relatedness between clinical terms: an experimental study}, author={Pakhomov, Serguei and McInnes, Bridget and Adam, Terrence and Liu, Ying and Pedersen, Ted and Melton, Genevieve B}, booktitle={AMIA annual symposium proceedings}, volume={2010}, pages={572}, year={2010}, organization={American Medical Informatics Association} }

搜集汇总

数据集介绍

构建方式

在临床术语语义相似性与关联性研究领域，UMNSRS数据集的构建体现了严谨的实证方法。该数据集由Pakhomov等人开发，其核心在于通过人工标注方式，对725对临床术语的语义相似度与关联性进行量化。标注过程采用了连续的响应尺度，具体由医学住院医师在触敏计算机屏幕上通过触摸条形区域来直观指示每对术语的相似或相关程度，从而生成精细的数值评分。数据集进一步细分为四个子集：包含566对术语的原始相似性评分集、包含588对术语的原始关联性评分集，以及经过筛选优化的‘similarity_mod’子集（449对）和‘relatedness_mod’子集（458对），后两者排除了控制样本及在特定语料库中未匹配到文本的术语对，确保了数据与真实文本语境的相关性。

特点

UMNSRS数据集在生物医学自然语言处理领域展现出鲜明的特色。其首要特点在于同时涵盖了术语的‘语义相似性’与‘语义关联性’两种不同但密切相关的度量，例如‘鲸鱼-海豚’侧重于相似性，而‘针-线’则侧重于关联性，这为模型区分两种语义关系提供了宝贵资源。其次，所有评分均基于连续的数值尺度，而非离散的类别标签，能够捕捉更细微的语义差异。此外，经过修改的子集（‘_mod’）特别考虑了临床、生物医学及通用英语语料库的领域覆盖问题，通过剔除不匹配的术语对，增强了数据在分布语义建模研究中的代表性和实用性，使其成为评估词嵌入模型在专业领域性能的基准工具。

使用方法

该数据集主要服务于语义文本相似性任务，为评估和开发临床与生物医学领域的词向量表示或语义模型提供标准参照。研究人员通常将数据集划分为训练集、验证集和测试集，用于训练模型预测术语对之间的连续相似度或关联度分数，或直接用于零样本评估预训练模型的语义捕获能力。在使用时，需注意区分‘相似性’与‘关联性’两个不同任务目标，并根据研究需求选择原始子集或经过语料匹配筛选的修改子集，后者尤其适用于探究模型在不同文本领域（临床、生物医学、通用）的泛化性能。通过计算模型预测分数与人工标注分数之间的相关性指标，可以量化模型的性能。

背景与挑战

背景概述

在生物医学信息学领域，临床术语的语义相似性与关联性度量是自然语言处理任务中的核心问题，直接影响着电子健康记录分析、临床决策支持系统以及医学知识图谱构建的准确性。UMNSRS数据集由明尼苏达大学的Serguei V.S. Pakhomov及其研究团队于2010年创建，旨在通过人工标注的方式，为725对临床术语提供连续尺度上的语义相似性与关联性评分。该数据集基于统一医学语言系统（UMLS）的概念对，通过触摸屏交互收集标注者的直观判断，为分布语义模型在医学领域的评估提供了重要基准，显著推动了临床文本挖掘与术语标准化研究的发展。

当前挑战

UMNSRS数据集所针对的领域挑战在于精确量化临床术语之间的语义关系，这要求模型能够区分细微的语义差异，例如‘相似性’与‘关联性’在医学语境中的不同内涵。构建过程中的主要困难体现在标注一致性维护上，由于术语对涉及专业医学知识，标注者需具备临床背景以确保评分的可靠性；同时，数据集的构建需克服医学术语多义性与语境依赖性的影响，例如术语‘needle’在不同临床场景中可能指向不同概念。此外，后续的修改版本（similarity_mod与relatedness_mod）进一步面临语料库领域适应性问题，需从临床、生物医学及通用英语语料中筛选匹配的术语对，以提升分布语义建模的域内有效性。

常用场景

经典使用场景

在临床自然语言处理领域，UMNSRS数据集常被用于评估和优化语义相似性与相关性的计算模型。该数据集通过人工标注的临床术语对，为研究者提供了一个标准化的基准，用以测试词嵌入、分布语义模型或深度学习算法在医学文本中的表现。其连续尺度的评分机制，使得模型能够更精细地捕捉术语间的语义关系，从而推动临床术语标准化和知识表示的发展。

实际应用

在实际应用中，UMNSRS数据集支持临床决策系统和电子健康记录的智能化处理。例如，在临床信息检索中，基于该数据集训练的模型能够更准确地匹配医学术语，提升诊断编码的自动化水平。此外，它还可用于药物不良反应监测系统，通过语义关联识别潜在的药物-疾病关系，增强医疗安全性和效率，为精准医疗和健康数据分析提供技术支撑。

衍生相关工作

围绕UMNSRS数据集，衍生了一系列经典研究工作。例如，Pakhomov等人2016年在《Bioinformatics》上发表的论文探讨了语料域对分布语义建模的影响，并基于该数据集提出了修改版本（similarity_mod和relatedness_mod）。后续研究如临床词向量评估和跨语言医学语义相似性计算，也常以UMNSRS为基准，推动了生物医学自然语言处理领域的模型创新与方法论进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集