ICD10CM_HCC

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/ParamDev/ICD10CM_HCC

下载链接

链接失效反馈

官方服务：

资源简介：

HCC ICD-CM指令微调数据集专为大型语言模型（LLM）的指令微调任务设计，用于ICD-CM代码提取，包括出院摘要中的MEAT证明。该数据集旨在提供高质量的指令格式示例，以指导LLM准确识别和提取临床笔记中的相关ICD-10-CM（国际疾病分类第十版临床修订版）代码。

创建时间：

2025-07-30

原始信息汇总

HCC ICD-CM指令调优数据集概述

数据集描述

目的：专为大型语言模型（LLMs）的指令调优设计，用于从出院摘要中提取ICD-CM代码及其MEAT理由。
应用领域：医疗编码、医疗账单、统计和流行病学研究。
关键任务：ICD-10-CM代码提取。

数据集结构

数据字段

instruction：自然语言指令，用于ICD10CM代码及其MEAT理由的提取任务。
input：医疗文本（出院摘要），从中提取ICD-CM代码。
output：预期的JSON格式输出。

数据划分

训练集：9960条数据。

提示长度统计

平均长度：21625.74
标准差：8985.92

提示模板

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:{}

Input:{}

Response:{}

使用方式

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("ParamDev/ICD10CM_HCC", split="train")

访问数据点示例

print(dataset[0])

引用信息

bibtex @misc{ICD10CM_HCC, author = {ParamDev}, title = {HCC ICD-CM Instruction Tuning Dataset}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/ParamDev/ICD10CM_HCC} }

其他信息

语言：英语
许可证：Apache-2.0
标签：医疗、医疗保健、ICD-CM、代码提取、指令调优、NLP
注释创建方式：人工注释和程序生成

搜集汇总

数据集介绍

构建方式

在医疗信息处理领域，ICD10CM_HCC数据集的构建采用了人工标注与程序化生成相结合的混合方法，专注于出院小结中的ICD-CM代码提取任务。数据集通过结构化指令模板，将临床文本与对应的疾病分类代码进行精准关联，每一条数据均包含自然语言指令、医疗文本输入及标准化的JSON输出。这种构建方式既确保了医学编码的专业性，又符合大语言模型指令微调的技术需求。

特点

该数据集的核心价值体现在其专业化的医疗编码标注体系和指令微调优化设计上。数据集包含9960条训练样本，平均提示长度达21625个字符，覆盖了丰富的临床场景。其独特的MEAT合理性标注机制，不仅提供疾病代码映射，还包含临床依据说明，为模型理解医疗决策逻辑提供了多维度的学习素材。文本输入与结构化输出的严格对应关系，显著提升了模型处理医疗文本的准确性和可解释性。

使用方法

研究人员可通过Hugging Face生态系统快速部署该数据集，使用datasets库的load_dataset函数即可加载完整训练集。数据集采用标准的指令-输入-响应三元组格式，兼容主流大语言模型微调框架。调用时需注意输出为JSON格式的ICD代码及其临床依据，这种设计既便于模型训练时的损失计算，也方便下游应用直接对接医疗信息系统。典型应用场景包括自动化医疗编码系统开发、临床决策支持工具构建等医疗自然语言处理任务。

背景与挑战

背景概述

ICD10CM_HCC数据集由ParamDev团队于2025年构建，旨在优化大型语言模型在医疗编码领域的指令微调能力。该数据集聚焦于国际疾病分类第十次修订本临床修改版（ICD-10-CM）代码的提取任务，特别关注出院小结中的医学合理性（MEAT）论证。作为医疗账单、统计和流行病学研究的基础，ICD编码的准确性直接影响医疗系统的运作效率。该数据集的发布填补了自然语言处理模型在临床编码专业化训练方面的空白，为医疗信息结构化处理提供了新的研究范式。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，医疗文本固有的专业术语密集性和语义模糊性，导致模型需同时处理复杂的医学概念与模糊的临床描述；ICD代码体系的层级化特性要求模型具备多粒度分类能力。在构建过程中，标注工作面临临床知识门槛高的障碍，需要医学专家参与验证；出院小结的非结构化文本存在信息碎片化问题，需设计特定算法提取有效上下文。此外，保持指令模板的泛化性与其在专业场景的精确性之间的平衡，也是构建过程中的关键难点。

常用场景

经典使用场景

在医疗信息处理领域，ICD10CM_HCC数据集被广泛用于训练大型语言模型（LLMs），以执行ICD-CM代码提取任务。该数据集通过提供高质量的指令调优示例，帮助模型从出院摘要中准确识别和提取ICD-10-CM代码及其MEAT合理性说明。这一过程不仅优化了模型的自然语言理解能力，还显著提升了其在复杂医疗文本中的编码准确性。

实际应用

在实际应用中，ICD10CM_HCC数据集被用于开发自动化医疗编码系统，这些系统可集成到电子健康记录（EHR）系统中，实现高效的出院摘要编码。医疗机构利用此类系统大幅提升了编码效率，同时确保了编码的准确性和一致性，为医疗账单和保险索赔提供了可靠的数据支持。

衍生相关工作

围绕ICD10CM_HCC数据集，衍生了一系列经典研究工作，包括基于指令调优的医疗编码模型优化、多任务学习框架的开发以及跨语言医疗编码系统的探索。这些工作不仅扩展了数据集的应用范围，还为医疗自然语言处理领域的进一步发展奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集