ICD编码的德国肿瘤诊断数据集
收藏arXiv2025-10-15 更新2025-10-17 收录
下载链接:
数据集访问地址未提供
下载链接
链接失效反馈官方服务:
资源简介:
本研究的数据集包含2024个独特的德国肿瘤诊断文本描述,每个描述都对应一个ICD-10代码和ICD-O拓扑代码。数据集是从当地肿瘤文档系统中提取的,用于评估经过指令微调的LLMs在医疗文档任务中的编码能力。数据集的创建使用了德国版本的ICD-10-GM、ICD-O-3和OPS目录,并包含了超过500,000个基于这些目录的问题-答案对。数据集的应用领域是提高LLMs在德国语言肿瘤诊断文本编码中的准确性,旨在解决德国医疗文档中肿瘤诊断编码自动化的问题。
The dataset for this study comprises 2,024 unique German textual descriptions of tumor diagnoses, each associated with an ICD-10 code and an ICD-O topographic code. Extracted from a local tumor documentation system, this dataset is used to evaluate the coding capabilities of instruction-tuned LLMs on medical documentation tasks. Constructed using the German versions of ICD-10-GM, ICD-O-3 and OPS nomenclatures, the dataset contains over 500,000 question-answer pairs based on these terminologies. Its application target is to improve the accuracy of LLMs in coding German-language tumor diagnosis texts, aiming to address the issue of automating tumor diagnosis coding in German medical documentation.
提供机构:
德国美因茨约翰内斯·古腾堡大学医学中心
创建时间:
2025-10-15



