CATS-58

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/NevenaD/CATS-58

下载链接

链接失效反馈

官方服务：

资源简介：

CATS-58是一个平衡的临床缩略词和术语歧义消除数据集，包含58个高度歧义的医学缩略词。每个缩略词扩展为2个不同的临床意义，每个意义有150个上下文丰富的句子。该数据集受临床缩略词意义清单（CASI）启发，通过受控的临床句子生成、使用临床嵌入模型的语义过滤以及对歧义案例的手动验证扩展而来。CATS-58旨在支持临床缩略词歧义消除、医学意义分类、可解释的临床NLP以及医学教育和智能辅导系统中的检索增强生成（RAG）系统的研究。

创建时间：

2025-11-28

原始信息汇总

CATS-58 数据集概述

基本信息

数据集名称：CATS-58
简介：CATS-58 是一个平衡的临床缩略语和术语消歧数据集，包含 58 个高度模糊的医学缩略语。
主要用途：支持临床缩略语消歧、医学语义分类、可解释的临床自然语言处理以及用于医学教育和智能辅导系统的检索增强生成系统研究。
许可协议：Creative Commons Attribution 4.0 International (CC BY 4.0)
语言：英语 (en)
任务类别：文本分类、令牌分类、句子相似性
标签：医学、护理、缩略语消歧、临床记录、合成数据、医疗保健、分类
规模类别：10K<n<100K

数据集结构

数据实例：每个实例包含一个包含模糊缩略语的临床句子及其对应的标准语义标签。
字段：
- acronym：模糊的临床缩略语。
- sense：缩略语的正确扩展语义。
- sentence：包含该缩略语的上下文丰富的临床句子。
格式：CSV / JSON
类型：扁平表格（每行一个实例）
预设划分：无预设的训练/验证/测试划分（建议按缩略语和语义进行分层划分）

数据集设计属性

58 个缩略语
每个缩略语有 2 种语义
每种语义有 150 个句子
语义间完全平衡
句子长度和缩略语位置受控变化
无患者可识别数据
合成但基于临床的句子生成

创建与来源

创建者：Nevena K. Dicheva, Dr Sama Aleshaiker 和 DR Laden Husamaldin
资助方：无外部资助
共享者：Nevena K. Dicheva
灵感来源：临床缩略语语义清单
数据性质：合成生成但基于临床的句子，由注册护士验证，灵感来源于临床文档风格、护理教育材料、生物医学文献模式和 CASI 缩略语-语义定义。未使用真实患者记录或可识别的健康数据。

预期用途

训练临床缩略语消歧模型
医学语义分类
评估生物医学句子嵌入模型
结合语义和关键词的可解释混合自然语言处理流程
医学领域的检索增强生成系统
用于护理和医学教育的智能辅导系统

非预期用途

直接用于临床决策或患者诊断
未经临床验证即部署于医院实时环境
用于法律、保险或账单判定
用于患者结果的预测建模
任何因缩略语消歧错误可能导致患者伤害的用途
该数据集严格用于临床自然语言处理和智能辅导系统的研究、教育和开发目的。

局限性与风险

技术局限性

数据集为合成生成，可能无法完全捕捉非正式的临床简写或真实世界电子健康记录的噪声变异性。
每个缩略语仅限于两种语义，而真实的临床使用可能包含更多罕见语义。
句子结构虽多样，但遵循受控生成模式，可能引入细微的文体规律性和降低语篇层面的复杂性。

社会技术风险

仅在 CATS-58 上训练的模型可能高估其在受控语言条件下的置信度，或在非结构化的真实临床记录上表现不佳。
数据集反映了英语生物医学语言规范，可能限制了文化和机构多样性以及国际文档风格。

安全考虑

临床上下文中错误的缩略语消歧可能导致文档错误或对医嘱或发现的误解。
因此，CATS-58 尚未批准用于临床部署，严格用于研究和教育。

建议

主要将 CATS-58 用于：基准测试临床自然语言处理系统、开发可解释的缩略语消歧流程、训练医学教育中的智能辅导系统和辅导代理。
将 CATS-58 与以下内容结合使用：真实世界去标识化的临床文本、领域适应技术、安全关键应用中的人机协同验证。
始终在以下方面评估系统：分布外缩略语上下文、低频边缘案例。
明确说明在此数据集上训练的模型仅用于决策支持，并非诊断工具。

引用信息

数据集引用：@dataset{dicheva_2025_cats58, author = {Dicheva, Nevena K. and Aleshaiker, Sama and Husamaldin, Laden}, title = {CATS-58: Clinical Acronym Test Set}, year = {2025}, publisher = {Hugging Face}, doi = {10.57967/hf/7114}, url = {https://huggingface.co/datasets/NevenaD/CATS-58} }
DOI：10.57967/hf/7114
数据集卡片联系人：nevena.dicheva@uwl.ac.uk

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，构建高质量的数据集对于解决医学术语歧义问题至关重要。CATS-58数据集通过精心设计的流程生成，其构建始于从临床缩写意义清单中选取58个高度歧义的医学缩略语，每个缩略语对应两种明确的临床意义。随后，研究团队为每种意义创建了特定的临床关键词汇，并采用结构化模板生成了上下文丰富的句子，确保每个意义包含150个句子，同时在句子中平衡了缩略语的位置分布。生成过程结合了临床嵌入模型进行语义过滤，并由注册护士进行人工验证，最终形成了一个完全平衡且无患者身份信息的合成数据集。

使用方法

CATS-58数据集适用于多种临床自然语言处理任务，用户可通过标准数据格式如CSV或JSON进行访问。数据集未预设训练、验证和测试划分，建议用户根据缩略语和意义进行分层分割，以保持数据分布的平衡性。其主要应用包括训练临床缩略语消歧模型、进行医学意义分类，以及评估生物医学句子嵌入模型的性能。此外，该数据集支持开发结合语义和关键词的可解释混合自然语言处理流程，并可用于医学领域的检索增强生成系统和智能辅导系统。需要注意的是，该数据集仅限于研究、教育和开发目的，不应用于临床决策或实时医院部署。

背景与挑战

背景概述

临床缩略语歧义消解是医学自然语言处理领域的一项核心任务，旨在准确解析临床文本中多义缩略语的具体含义。CATS-58数据集由Nevena K. Dicheva、Sama Aleshaiker和Laden Husamaldin等研究人员于2025年创建，其设计灵感来源于临床缩略语语义清单（CASI）。该数据集针对58个高度歧义的医学缩略语，每个缩略语扩展为两种不同的临床语义，并通过受控的临床句子生成、语义过滤及人工验证构建而成。CATS-58旨在为临床缩略语消解、医学语义分类、可解释临床NLP以及医学教育中的检索增强生成系统提供平衡且可扩展的基准数据，推动智能教学系统与混合决策语义管道的发展。

当前挑战

在临床缩略语歧义消解领域，现有数据集常面临语义分布严重不平衡、语境多样性有限以及缺乏适用于可解释性研究的基准等问题。CATS-58的构建旨在应对这些挑战，其具体困难包括：确保每个缩略语两种语义的严格平衡，维持生成句子的临床真实性与语境丰富性，同时避免引入患者身份信息。此外，合成数据可能无法完全捕捉真实电子健康记录中的非正式表达与噪声变异，且将每个缩略语限定于两种语义，可能忽略了实际临床使用中存在的罕见语义变体，这些因素均对模型的泛化能力与临床应用安全性构成了潜在限制。

常用场景

经典使用场景

在临床自然语言处理领域，CATS-58数据集为医学术语消歧研究提供了标准化的评估基准。该数据集包含58个高度歧义的医学缩略语，每个缩略语对应两种不同的临床含义，并配有丰富上下文语句。研究者利用这一平衡数据集，能够训练和测试缩略语消歧模型，评估模型在区分如“CA”代表癌症还是钙化等复杂语义时的性能。其精心设计的句法结构和语义多样性，使得该数据集成为开发混合语义-关键词消歧系统的理想实验平台。

解决学术问题

CATS-58直接应对临床文本分析中缩略语多义性带来的核心挑战。传统医学数据集常存在语义分布不平衡、语境单一等问题，而该数据集通过均衡的语义标注和受控生成的临床语句，为学术界提供了消除语义偏差的解决方案。它支持可解释性临床自然语言处理研究，促进基于检索增强生成的医学教育系统开发，并为智能辅导系统提供了可靠的语义理解基础，从而推动医疗人工智能向更精准、透明的方向发展。

实际应用

该数据集在医疗教育和技术支持系统中展现出重要应用价值。医学教育机构可基于CATS-58构建智能辅导系统，帮助医学生和护理人员准确理解临床文档中缩略语的多重含义。在临床决策支持系统中，经过该数据集训练的模型能够辅助医生快速解析电子健康记录中的歧义术语，提升文档处理效率。同时，它也为开发面向医疗专业的检索增强生成工具提供了语义消歧的核心能力，增强医疗信息系统的智能化水平。

数据集最近研究