seanfarrell/ICD-11_synonyms
收藏Hugging Face2025-10-28 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/seanfarrell/ICD-11_synonyms
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
许可证:Apache 2.0
提供机构:
seanfarrell
搜集汇总
数据集介绍

构建方式
在医学信息学领域,标准化的疾病分类体系对于临床诊断与数据互通至关重要。ICD-11_synonyms数据集基于国际疾病分类第十一版(ICD-11)构建,通过系统性地收集与整理ICD-11编码对应的同义词、变体表述及临床常用术语,形成结构化映射关系。该过程依托权威医学文献与标准化术语库,确保术语的准确性与覆盖广度,为自然语言处理任务提供了坚实的术语基础。
特点
该数据集的核心特征在于其高度结构化与语义丰富性,不仅涵盖ICD-11标准编码,还整合了多语言同义词及临床场景下的常见表达变体。这种设计增强了术语的泛化能力,能够有效支持医学文本的实体识别、标准化编码映射及语义相似度计算。数据以清晰键值对形式呈现,便于直接应用于机器学习模型训练与评估。
使用方法
研究人员可将该数据集直接加载至自然语言处理流程中,用于构建医学术语标准化工具或增强临床文本理解模型。通过匹配输入文本与数据集中的同义词集合,可实现疾病编码的自动推荐与归类。此外,数据集支持跨语言医学信息检索任务,为多语言健康信息系统提供术语对齐资源。
背景与挑战
背景概述
国际疾病分类第十一次修订本(ICD-11)作为全球卫生信息系统的核心标准,由世界卫生组织于2018年正式发布,旨在提供一套统一且科学的疾病、损伤及死因编码体系。该数据集的构建聚焦于ICD-11术语的同义词扩展,通过整合多语言与多源医学词汇,增强了编码系统的语义覆盖与检索效率,为临床诊断、公共卫生统计及医学自然语言处理研究提供了关键的语言资源支撑。
当前挑战
该数据集致力于解决医学文本中术语标准化与消歧的挑战,即如何准确映射非标准临床表述至规范ICD-11编码,以提升自动化诊断编码的精度。在构建过程中,挑战主要源于医学术语的多样性与动态性,包括同义词的跨语言对齐、方言变体的收录,以及新兴疾病术语的及时集成,这些因素均对数据的一致性与时效性提出了较高要求。
常用场景
经典使用场景
在医疗信息学领域,ICD-11_synonyms数据集为国际疾病分类第十一版(ICD-11)提供了丰富的同义词映射资源。该数据集的核心应用场景在于支持自然语言处理模型对医学术语进行标准化处理,特别是在临床文本挖掘和电子健康记录分析中,能够有效识别和统一疾病、症状及医疗程序的各种表述变体,从而提升医疗数据互操作性和语义一致性。
实际应用
在实际医疗系统中,ICD-11_synonyms数据集被广泛应用于智能诊断辅助、自动化编码和临床决策支持工具。例如,在电子病历系统中,它能够帮助自动将医生自由文本描述映射到标准ICD-11代码,减少人工编码错误和工作负担,同时促进流行病学统计、医保报销审核以及公共卫生监测的准确性和效率。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,包括基于深度学习的医学术语归一化模型、跨语言ICD编码预测系统以及医疗知识图谱的增强构建。这些工作不仅扩展了数据集在多语言环境下的应用,还推动了如BioBERT、ClinicalBERT等预训练模型在医疗领域的优化,为全球医疗信息标准化和智能化管理奠定了坚实基石。
以上内容由遇见数据集搜集并总结生成



