krishnareddy/icddxdescmap

Name: krishnareddy/icddxdescmap
Creator: krishnareddy
Published: 2023-09-04 10:56:05
License: 暂无描述

Hugging Face2023-09-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/krishnareddy/icddxdescmap

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在帮助将临床文档中记录的ICD10诊断描述映射到CMS（Centers for Medicare & Medicaid Services）的标准ICD10诊断描述。数据集包含AnnotationString、DXCode、ShortDesc和LongDesc四个主要列，用于训练模型将自由形式的疾病文本映射到ICD代码。模型训练的目标包括生成DX Code、ShortDesc和LongDesc三种输出。

This dataset is designed to facilitate the mapping of ICD-10 diagnostic descriptions recorded in clinical documents to the standard ICD-10 diagnostic descriptions established by CMS (Centers for Medicare & Medicaid Services). The dataset comprises four core columns: AnnotationString, DXCode, ShortDesc, and LongDesc, which are utilized for training models to map free-form disease-related text to ICD codes. The training objectives of the model include generating three types of outputs: DX Code, ShortDesc, and LongDesc.

提供机构：

krishnareddy

原始信息汇总

ICD10 Diagnosis Description Mapping Dataset

概述

该数据集旨在帮助将临床文档中记录的ICD10诊断描述映射到CMS（医疗保险和医疗补助服务中心）的标准ICD10诊断描述。主要目标是训练一个能够将自由形式的疾病文本映射到ICD代码的模型。

数据集详情

数据集包含以下列：

AnnotationString: 包含患者临床文档中的疾病文本。
DXCode: 包含与AnnotationString列描述相对应的标准DX代码。
ShortDesc: 包含与DXCode相对应的标准ICD描述的简短形式。
LongDesc: 包含与DXCode相对应的标准ICD描述的详细形式。

模型训练目标

该数据集的目标是训练LLAMA2 7B模型，根据提供的AnnotationString输入生成以下输出之一：

情况1：期望DX代码作为输出

指令: 作为ICD代码助手，模型需要为相应的疾病描述生成一个ICD 10 DX代码。
输入: <Annotation String>
输出: <DXCode>

情况2：期望ShortDesc作为输出

指令: 作为ICD代码助手，模型需要为相应的临床文本生成标准ICD 10 DX代码的简短描述。
输入: <Annotation String>
输出: <ShortDesc>

情况3：期望LongDesc作为输出

指令: 作为ICD代码助手，模型需要为相应的临床文本生成标准ICD 10 DX代码的详细描述。
输入: <Annotation String>
输出: <LongDesc>

使用方法

要有效地使用此数据集训练LLAMA2 7B模型，可以按照以下步骤操作：

预处理您的输入数据，以匹配所需情况（1、2或3）的“指令”中指定的格式。
使用预处理后的数据作为模型的输入。
模型将根据您指定的情况生成相应的输出（DXCode、ShortDesc或LongDesc）。

示例

以下是如何使用此数据集和模型的示例：

输入

python

指令: 作为ICD代码助手，您需要为以下疾病描述生成ICD 10 DX代码

输入: "Patient presents with persistent cough and fever."

输出（情况1）

python

输出: "J44.9"

输出（情况2）

python

输出: "Chronic obstructive pulmonary disease, unspecified"

输出（情况3）

python

输出: "Chronic obstructive pulmonary disease, unspecified"

警告: 潜在的映射错误

该数据集是从另一个基于规则的NLP应用程序中获取的，重要的是要注意临床文本到标准代码或标准描述的映射可能存在错误。尽管已尽一切努力确保准确性，但在处理复杂的医学术语和临床文档的变异性时，自动化映射过程存在固有的挑战。

用户在使用生成的结果时应谨慎，并考虑以下因素：

临床变异: 临床文档的风格和术语可能存在显著差异，这可能导致映射不准确。
复杂病例: 某些医学状况或描述可能无法一对一地映射到标准代码或描述，从而导致潜在的不一致。
数据质量: 映射的准确性还取决于输入临床文本的质量和一致性。
持续改进: 正在努力提高映射的准确性，并鼓励用户提供反馈和报告任何不一致之处。

建议在关键的医疗保健应用中交叉验证此数据集生成的结果，其中准确性至关重要。

请负责任地使用此数据集，并与临床专业知识结合，以做出明智的决策。

如果您遇到任何问题或有改进建议，请联系数据集维护者。

感谢您的理解与合作。

搜集汇总

数据集介绍

构建方式

在临床信息学领域，标准化疾病编码是提升医疗数据互操作性的关键。本数据集通过整合临床文档中的自由文本疾病描述与CMS（美国医疗保险和医疗补助服务中心）发布的ICD-10标准诊断代码及其描述构建而成。其构建过程涉及从基于规则的NLP应用中提取映射关系，将非结构化的临床文本（AnnotationString）与标准化的DX代码（DXCode）、简短描述（ShortDesc）及详细描述（LongDesc）进行系统关联，旨在为模型训练提供精准的映射基础。

特点

该数据集的核心特点在于其专注于ICD-10诊断代码的映射任务，涵盖了从自由文本到标准化编码的多层次输出。数据集结构清晰，包含临床文本、对应代码及两种粒度的标准描述，为模型训练提供了丰富的监督信号。值得注意的是，数据源自自动化规则映射，可能存在因临床术语变异或复杂病例导致的潜在误差，这要求使用者结合临床专业知识进行审慎验证，体现了其在真实医疗场景中应用的挑战与价值。

使用方法

为有效利用本数据集，用户需依据具体任务目标选择相应的训练范式。数据集支持三种输出模式：生成标准DX代码、简短描述或详细描述。使用前，应将输入数据预处理为指定的指令-输入格式，例如以临床文本作为输入，并明确模型输出期望。随后，可基于LLAMA2 7B等模型架构进行训练，使模型学会从自由文本中准确映射至标准化医疗编码体系。在实际部署中，建议对模型输出进行交叉验证，尤其在关键医疗决策场景中，以确保映射的可靠性。

背景与挑战

背景概述

在医疗信息化进程中，临床文档的标准化编码是提升数据互操作性与分析效率的关键。ICD-10诊断代码作为国际通用的疾病分类体系，其准确映射自由文本临床描述至标准术语，一直是医学自然语言处理领域的核心议题。由krishnareddy构建的ICDDXDESCMAP数据集应运而生，旨在通过训练大型语言模型，实现从非结构化临床叙述到ICD-10代码及其标准描述的自动化映射，从而辅助医疗决策支持与健康管理研究。

当前挑战

该数据集致力于解决临床文本与ICD-10标准术语间的语义对齐挑战，其复杂性源于医学术语的多样性与描述风格的异构性。构建过程中，数据源自基于规则的NLP应用，可能引入映射偏差；临床文档的表述变异、复杂病例缺乏一一对应关系，以及输入文本质量的不一致性，均可能影响映射精度。这些因素共同构成了模型训练与可靠应用的核心障碍。

常用场景

经典使用场景

在医疗信息学领域，临床文档中疾病描述的标准化映射是提升数据互操作性的关键环节。该数据集的核心应用场景在于训练大型语言模型，如LLAMA2 7B，以实现从自由文本的临床疾病描述到标准ICD-10诊断代码或描述的精准映射。通过构建结构化的输入-输出对，模型能够学习识别非结构化文本中的医学术语，并生成对应的标准编码或规范化描述，为自动化医疗编码提供可靠的技术基础。

实际应用

在实际医疗环境中，该数据集支持开发智能编码助手，应用于医院电子健康记录系统、医疗保险理赔审核及公共卫生统计等场景。通过自动化映射临床文档中的疾病描述至ICD-10代码，能够显著减轻人工编码负担，降低错误率，并加速医疗数据处理流程。此外，它还可集成于临床研究平台，辅助疾病分类与流行病学分析，提升医疗服务的效率与准确性。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在基于Transformer架构的医疗编码模型优化、多任务学习框架设计以及对抗性训练策略的应用。这些工作不仅提升了模型在复杂临床文本上的泛化能力，还探索了跨语言与跨机构的编码迁移学习。同时，部分研究结合知识图谱增强技术，进一步改善了编码映射的准确性与可解释性，为医疗人工智能的实践奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集