joduor/disease-code-to-name
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/joduor/disease-code-to-name
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators: []
language:
- en
- pt
language_creators: []
license: []
multilinguality:
- multilingual
pretty_name: 'disease_code_to_name'
size_categories:
- 1K<n<10K
source_datasets:
- 'original'
tags:
- adaption
- instruction-tuning
- other
task_categories: []
task_ids: []
---

This dataset is a remastered version prepared using [Adaption's](https://adaptionlabs.ai/app/auth) Adaptive Data platform.
# disease_code_to_name
This dataset consists of pairs mapping unique disease identification codes (e.g., DIS000940) to their corresponding medical condition names. The samples cover a range of chronic diseases including Alzheimer's, Parkinson's, Breast Cancer, Hypertension, and Diabetes. It serves as a lookup resource for translating standardized disease identifiers into human-readable labels.
### Dataset size
There are 1,000 data points in this dataset. This is an instruction tuning dataset.
### Quality of Remastered Dataset
The final quality is B, with a relative quality improvement of 740.0%.
### Domain
- Other (100%)
### Language
- English (96%)
- Portuguese (4%)
### Tone
- Objective (82%)
- Informative (18%)
### Evaluation Results
- **Quality Gains:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/2125848f-3e25-4b26-a940-7cb0fbaf045e.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
- **Grade Improvement:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/de365659-386d-43d2-9256-a2373065e37a.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
- **Percentile Chart:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/dab4bf96-5bc2-45db-a285-f59154f174b3.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
提供机构:
joduor
搜集汇总
数据集介绍

构建方式
在医学信息学领域,标准化的疾病编码是电子健康记录与临床决策支持系统的核心要素。本数据集基于Adaption Labs的Adaptive Data平台,对原始数据进行精细化的重制与优化,构建了一个包含1000个样本的指令调优数据集。其核心任务是将唯一的疾病标识码(如DIS000940)映射至对应的医学病症名称,涵盖了阿尔茨海默病、帕金森病、乳腺癌、高血压及糖尿病等常见慢性疾病。数据集经过质量评估,最终质量等级为B,相对质量提升达740.0%。
特点
该数据集具有鲜明的多语言与多维度特征。其语言构成以英语为主(96%),并融合了少量葡萄牙语样本(4%),展现出一定的跨语言适用性。在语体风格上,客观性陈述占据82%,信息性表述占18%,确保了数据的严谨与实用。数据内容完全聚焦于医学领域,通过将抽象代码转化为可读标签,为标准化疾病标识符的解码提供了直接且高效的查找资源。
使用方法
本数据集在自然语言处理任务中应用广泛,尤其适用于医疗领域的指令微调与知识对齐。研究人员可将其作为词典映射数据,用于训练模型理解疾病代码与名称之间的对应关系,进而提升临床文本处理中的命名实体识别与标准化能力。此外,该数据集亦可作为基准测试,评估模型在医学知识检索与转换中的表现。使用时需注意其语言分布特点,以针对性地进行数据增强或领域适应。
背景与挑战
背景概述
在医学自然语言处理领域,标准化疾病标识符与人类可读名称之间的映射是构建智能医疗系统的基础环节。该数据集由Adaption团队利用其自适应数据平台重新精制而成,创建时间可追溯至近期,旨在为指令微调任务提供高质量的检索资源。数据集包含1,000个样本,覆盖阿尔茨海默病、帕金森病、乳腺癌、高血压和糖尿病等常见慢性疾病,将诸如DIS000940的标准化编码转化为对应的医学术语。凭借740.0%的相对质量提升及B级最终评分,该数据集在跨语言(英语占96%、葡萄牙语占4%)和客观语调(占82%)背景下,显著增强了医疗编码系统的语义互通性,为下游临床决策支持模型的数据基础提供了有力支撑。
当前挑战
当前数据集面临的领域挑战主要源于两个层面。其一,在解决医学文本标准化问题时,疾病编码体系(如ICD或本地化系统)与自然语言描述之间存在歧义性,同种疾病可能对应多个编码或表述,导致映射任务面临一词多义和同义异构的复杂性。其二,构建过程中遭遇了数据稀缺与质量控制的困境:原始编码—名称对通常分散于异构的临床记录中,人工标注成本高昂且易出错;此外,尽管通过自适应平台实现了约740%的质量跃升,但在跨语言场景下(如葡萄牙语样本仅占4%),低资源语言的映射可靠性仍待验证,且样本规模仅千条,限制了模型对罕见疾病的泛化能力。
常用场景
经典使用场景
在医疗健康领域的自然语言处理研究中,疾病代码与名称之间的精准映射是构建智能医疗系统的基石。该数据集以结构化的键值对形式,提供了从标准化疾病标识符(如DIS000940)到可读疾病名称(如阿尔茨海默病、高血压等)的转换桥梁。其经典使用场景集中于指令微调(instruction tuning),通过训练模型理解并执行代码到名称的翻译任务,提升语言模型在医疗术语解析与知识图谱构建中的表现。此外,该数据集还可作为跨语言映射的测试基准,例如涵盖英语与葡萄牙语的双语样本,助力多语言医疗信息系统的兼容性研究。
解决学术问题
学术研究中,疾病编码体系的不统一常导致数据整合与跨系统通信的障碍。该数据集通过构建高质量、精炼的代码-名称对照库,有效解决了医疗文本标准化与实体对齐的核心难题。它支撑了从非结构化病历中自动抽取疾病实体并映射至标准术语的研究,显著降低了人工标注成本。数据集的生成过程中实现了740%的相对质量提升,这为验证自适应数据清洗与增强算法提供了实证素材。其意义在于推动了医疗大语言模型在零样本或少样本场景下的泛化能力,促使学界重新审视数据质量对下游任务性能的边际效应。
衍生相关工作
基于该数据集,研究者已衍生出若干富有影响力的工作。其一是在指令微调框架下,探索不同规模的语言模型(如LLaMA、GPT系列)在医疗代码翻译任务中的表现差异,并据此设计更高效的提示模板。其二是将数据集的映射关系融入知识增强的检索式生成管道,用于自动构建医学知识图谱中的同义关系边。此外,有工作利用该数据集评估模型在对抗性扰动下的鲁棒性,例如通过替换或污染疾病名称观察输出退化程度,从而提出针对医疗NLP系统的防御机制。这些衍生研究共同拓展了医疗数据标准化与模型安全性的交叉领域。
以上内容由遇见数据集搜集并总结生成



