joduor/disease-code-mapping
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/joduor/disease-code-mapping
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators: []
language:
- ru
- en
- it
language_creators: []
license: []
multilinguality:
- multilingual
pretty_name: 'disease_code_mapping'
size_categories:
- 10K<n<100K
source_datasets:
- 'original'
tags:
- adaption
- instruction-tuning
- other
task_categories: []
task_ids: []
---

This dataset is a remastered version prepared using [Adaption's](https://adaptionlabs.ai/app/auth) Adaptive Data platform.
# disease_code_mapping
This dataset consists of prompt-completion pairs mapping specific disease identifiers (prefixed with 'D') to corresponding discovery or discussion codes (prefixed with 'DIS'). Each sample demonstrates a direct lookup relationship between a source disease ID and a target reference ID. The data is structured for training models to perform accurate medical code translation or retrieval tasks.
### Dataset size
There are 19,144 data points in this dataset. This is an instruction tuning dataset.
### Quality of Remastered Dataset
The final quality is B, with a relative quality improvement of 700.0%.
### Domain
- Other (100%)
### Language
- Russian (40%)
- English (20%)
- Italian (6%)
### Tone
- Objective (100%)
### Evaluation Results
- **Quality Gains:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/fba0dc37-a35a-4702-92b9-56e6bf9021e8.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
- **Grade Improvement:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/2ef281ba-e520-40de-ad03-f8f46bd8f841.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
- **Percentile Chart:**
<img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/24722dc9-724d-45e2-b29b-94e386593032.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />
提供机构:
joduor
搜集汇总
数据集介绍

构建方式
在医学信息学领域,精准的疾病编码映射对于临床决策支持与健康数据互操作性至关重要。本数据集基于Adaption自适应数据平台对原始数据进行重构,通过系统化处理生成了19,144条指令微调样本。每条数据均呈现为提示-完成对,清晰建立了以‘D’为前缀的疾病标识符与以‘DIS’为前缀的发现或讨论编码之间的直接对应关系,为模型训练提供了结构化的映射范例。
使用方法
该数据集专为训练医学代码转换与检索模型而设计,适用于指令微调任务。使用者可将提示-完成对作为输入-输出样本,引导模型学习从疾病标识符到对应参考编码的精确映射。在跨语言医学信息处理、临床编码标准化或智能健康系统开发中,该数据集能够为模型提供高质量的监督信号,助力提升自动编码的准确性与可靠性。
背景与挑战
背景概述
在医疗信息学领域,疾病编码映射是连接临床诊断与标准化术语体系的关键环节,旨在实现不同编码系统间的精确转换。disease-code-mapping数据集由Adaption实验室通过其自适应数据平台重构而成,专注于构建疾病标识符(以'D'为前缀)与发现或讨论代码(以'DIS'为前缀)之间的映射关系。该数据集包含19,144条指令调优样本,覆盖俄语、英语和意大利语等多语言环境,核心研究问题在于提升模型在医疗代码翻译与检索任务中的准确性,为跨语言医疗数据处理提供了重要支持。
当前挑战
该数据集旨在解决医疗编码标准化中的映射挑战,即如何准确地将非结构化或异构的疾病标识符转换为统一的参考代码,这对临床决策支持与流行病学研究至关重要。在构建过程中,挑战主要源于多语言医疗术语的语义差异与数据一致性维护,例如俄语、英语和意大利语疾病表述的跨语言对齐,以及原始数据质量不均导致的映射噪声。此外,确保映射关系的精确性与泛化能力,避免过拟合于特定编码体系,也是数据集开发面临的关键难题。
常用场景
经典使用场景
在医学信息学领域,标准化编码映射是确保数据互操作性的基石。disease-code-mapping数据集通过提供疾病标识符(以'D'为前缀)与对应发现或讨论代码(以'DIS'为前缀)之间的直接查找关系,为模型训练提供了精准的映射范例。该数据集最经典的使用场景在于支持医疗代码翻译或检索任务的指令微调,使模型能够学习从一种编码体系到另一种编码体系的准确转换,从而提升医疗数据处理的自动化水平。
解决学术问题
该数据集主要解决了医学编码标准化中的映射一致性问题,这在学术研究中至关重要。通过提供大规模、多语言的提示-完成对,它帮助研究者克服不同医疗系统间编码差异带来的挑战,促进了跨语言医疗数据的整合与分析。其意义在于为自然语言处理模型在医学领域的应用提供了高质量的训练资源,推动了医疗信息检索、临床决策支持等方向的技术进展,对提升医疗数据管理的效率与准确性产生了深远影响。
实际应用
在实际医疗环境中,disease-code-mapping数据集的应用场景广泛。它可用于开发智能医疗系统,自动将患者病历中的疾病描述转换为标准化的编码,从而简化保险理赔、流行病学统计和临床研究流程。此外,在多语言医疗数据整合中,该数据集支持模型处理俄语、英语和意大利语等不同语言的医疗记录,增强了全球医疗信息系统的互操作性,为医疗机构提供了高效、准确的代码转换工具。
数据集最近研究
最新研究方向
在医疗信息学领域,疾病代码映射作为标准化与互操作性的核心环节,正随着多语言大语言模型的兴起而迎来新的研究浪潮。disease-code-mapping数据集以其覆盖俄语、英语和意大利语的多语言特性,为跨语言医疗术语对齐提供了关键训练资源。当前前沿研究聚焦于利用指令微调技术,提升模型在复杂医疗编码体系间的精准转换能力,尤其关注于从疾病标识符到讨论代码的自动化映射,以支持全球医疗数据的无缝整合与智能检索。这一方向不仅响应了国际医疗系统互联互通的热点需求,也为降低临床决策支持中的语义歧义奠定了数据基础,具有推动医疗人工智能向更高效、更包容方向发展的深远意义。
以上内容由遇见数据集搜集并总结生成



