ICD编码的德国肿瘤诊断数据集
收藏arXiv2025-10-15 更新2026-03-27 收录
下载链接:
https://hf-mirror.com/datasets/stefan-m-lenz/ICDOPS-QA-2024
下载链接
链接失效反馈官方服务:
资源简介:
本研究的数据集包含2024个独特的德国肿瘤诊断文本描述,每个描述都对应一个ICD-10代码和ICD-O拓扑代码。数据集是从当地肿瘤文档系统中提取的,用于评估经过指令微调的LLMs在医疗文档任务中的编码能力。数据集的创建使用了德国版本的ICD-10-GM、ICD-O-3和OPS目录,并包含了超过500,000个基于这些目录的问题-答案对。数据集的应用领域是提高LLMs在德国语言肿瘤诊断文本编码中的准确性,旨在解决德国医疗文档中肿瘤诊断编码自动化的问题。
The dataset for this study comprises 2,024 unique German textual descriptions of tumor diagnoses, with each description paired with one ICD-10 code and one ICD-O topographic code. This dataset was extracted from a local oncology documentation system, and is utilized to evaluate the coding performance of instruction-tuned Large Language Models (LLMs) on medical documentation tasks. The dataset was developed using the German editions of the ICD-10-GM, ICD-O-3, and OPS coding catalogs, and contains more than 500,000 question-answer pairs grounded in these coding standards. The intended use of this dataset is to enhance the coding accuracy of LLMs when processing German-language tumor diagnosis texts, with the goal of resolving the challenges associated with automating tumor diagnosis coding in German medical documentation.
提供机构:
德国美因茨约翰内斯·古腾堡大学医学中心
创建时间:
2025-10-15
搜集汇总
数据集介绍

构建方式
在肿瘤诊断的临床编码领域,德国肿瘤诊断ICD编码数据集通过系统化整合公共医学分类目录构建而成。该数据集以德国版国际疾病分类(ICD-10-GM)、国际肿瘤疾病分类(ICD-O-3)以及德国医疗操作分类(OPS)为知识源,生成了超过五十万条问答对。这些问答对覆盖了从肿瘤诊断识别到具体ICD编码生成的多类任务,同时引入非肿瘤诊断与医疗操作条目作为负例,以增强模型对肿瘤诊断概念的精确理解。数据构建过程注重指令多样性,同一语义任务采用多种表述形式,旨在提升模型对多样化临床文本的泛化能力。
特点
该数据集的核心特征在于其专注于德语肿瘤诊断的ICD编码任务,填补了非英语医学自然语言处理资源的空白。数据集不仅包含ICD-10与ICD-O编码的精确映射,还融入了诊断识别的二元分类任务,形成了多层次的学习目标。其问答对设计强调简洁输出,引导模型生成易于解析的短代码,显著提升了后续处理的效率。此外,数据集基于公开标准化目录构建,确保了内容的权威性与可复现性,为不同机构间的模型迁移与应用奠定了坚实基础。
使用方法
在医学信息提取的研究与应用中,该数据集主要用于指令微调开源大语言模型,以提升其在德语肿瘤诊断编码任务上的性能。使用者可加载数据集至训练框架,采用低秩适应等参数高效微调技术,对Qwen、Llama、Mistral等模型家族进行针对性训练。训练后的模型能够接收简短的肿瘤诊断文本描述,直接输出对应的ICD-10或ICD-O编码,或判断其是否为肿瘤诊断。评估时需结合来自真实肿瘤文档系统的测试集,并参考数据质量分析所设定的性能上限,以客观衡量模型在信息不全的临床文本上的实际编码能力。
背景与挑战
背景概述
在医学信息学领域,将非结构化文本中的临床内容转化为结构化编码是实现精准医疗数据管理的关键环节。德国肿瘤诊断ICD编码数据集由美因茨大学医学中心生物统计学研究所的Stefan Lenz等人于2024年构建,旨在解决德语环境下肿瘤诊断文本自动编码的难题。该研究聚焦于利用公开医学分类目录(ICD-10-GM、ICD-O-3及OPS)构建指令微调数据集,以提升开源大语言模型在德语肿瘤诊断编码任务中的准确率。这项工作不仅为德语医学自然语言处理提供了重要资源,也为跨语言临床编码自动化研究开辟了新路径,对推动欧洲医疗文档标准化具有显著意义。
当前挑战
该数据集致力于解决医学文本自动编码领域的核心挑战:如何将非结构化的德语肿瘤诊断描述准确映射至国际疾病分类(ICD)编码体系。具体挑战体现在两个层面:在领域问题层面,诊断文本常存在信息缺失(如肿瘤行为未明确、解剖定位不完整),导致编码存在歧义;同时,ICD-O编码体系因训练语料覆盖不足,其性能提升显著滞后于ICD-10编码。在构建过程中,研究者面临公开目录语义覆盖有限、德语同义表达多样性不足的制约,需通过设计多样化的指令模板与负例样本增强模型泛化能力。此外,真实世界测试数据的信息不完整性为模型性能设定了理论上限,使得完全准确的自动编码难以实现。
常用场景
经典使用场景
在德国肿瘤临床文档自动化领域,该数据集最经典的应用场景在于为开源大语言模型提供指令微调的训练资源。研究者利用基于ICD-10-GM、ICD-O-3和OPS等公共分类目录构建的五十余万条德文问答对,对Qwen、Llama和Mistral等系列模型进行针对性训练,显著提升了模型在德语肿瘤诊断文本上的ICD编码准确性。这种基于公开目录构建指令数据集的方法,为资源有限的非英语医疗自然语言处理任务开辟了高效的技术路径。
解决学术问题
该数据集有效解决了德语医疗文本处理中高质量训练数据稀缺的核心学术难题。通过系统化构建涵盖肿瘤诊断识别、ICD-10编码、ICD-O解剖学部位编码及与非肿瘤诊断区分的多样化指令任务,该研究证明了利用公开标准化目录能够显著弥补专业领域数据的不足。其意义在于为多语言医疗NLP研究提供了可复现的数据构建范式,突破了以往模型在德语临床编码任务上性能不佳的瓶颈,推动了隐私保护前提下本地化医疗AI模型的发展。
衍生相关工作
该研究催生了一系列围绕多语言临床编码优化的衍生工作。其构建的指令数据集与模型检查点已在Hugging Face平台开源,为后续研究提供了可直接使用的基准资源。相关工作探索了将该方法扩展至其他德语医疗编码任务,或结合检索增强生成技术以进一步提升性能。同时,该研究提出的数据质量上限分析方法,为客观评估短文本诊断描述的编码潜力设立了新标准,影响了后续医疗NLP评估范式的改进。这些工作共同推动了开源大语言模型在专业医疗领域落地应用的深度与广度。
以上内容由遇见数据集搜集并总结生成



