RuCCoD (Russian ICD Coding Dataset)

Name: RuCCoD (Russian ICD Coding Dataset)
Creator: 莫斯科物理技术学院(AIRI),莫斯科国立大学(Sber AI),莫斯科国立大学(Sber AI Lab),俄罗斯高等经济学院(HSE University),俄罗斯科学院(RAS)可信人工智能研究中心(ISP RAS Research Center for Trusted Artificial Intelligence)
Published: 2025-03-01 01:40:24
License: 暂无描述

arXiv2025-03-01 更新2025-03-04 收录

下载链接：

https://github.com/auto-icd-coding/ruccod

下载链接

链接失效反馈

官方服务：

资源简介：

RuCCoD是一个针对俄罗斯ICD编码的新数据集，包含了从电子健康记录(EHRs)中提取的诊断字段，这些字段由医学专业人士根据ICD-10 CM系统进行了注释。数据集分为训练集和测试集，共有3500条记录，涵盖了超过10000个实体和1500个独特的ICD代码。该数据集旨在为自动化临床编码提供基准，并用于评估不同模型在临床任务中的表现。

RuCCoD is a novel dataset for Russian ICD coding. It contains diagnostic fields extracted from electronic health records (EHRs), which were annotated by medical professionals in accordance with the ICD-10 CM system. The dataset is split into training and test sets, with a total of 3500 records, covering over 10000 entities and 1500 unique ICD codes. This dataset aims to provide a benchmark for automated clinical coding and be used to evaluate the performance of different models in clinical tasks.

提供机构：

莫斯科物理技术学院(AIRI),莫斯科国立大学(Sber AI),莫斯科国立大学(Sber AI Lab),俄罗斯高等经济学院(HSE University),俄罗斯科学院(RAS)可信人工智能研究中心(ISP RAS Research Center for Trusted Artificial Intelligence)

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

RuCCoD数据集的构建主要通过对俄罗斯电子健康记录（EHRs）中的诊断字段进行标注，标注内容包括超过10,000个实体和1,500个独特的ICD代码。该数据集的构建旨在解决俄罗斯语言在临床领域资源有限的问题，为ICD编码自动化提供可能。数据集的标注由医疗专业人员根据ICD-10 CM系统进行，确保了标注的准确性和可靠性。此外，数据集还包含了来自2017年至2021年的患者病史数据，为模型的训练和评估提供了丰富的数据资源。

特点

RuCCoD数据集的特点在于其全面性和多样性。数据集包含了丰富的诊断实体和ICD代码，覆盖了多种临床疾病和症状，能够满足模型训练和评估的需求。此外，数据集还包含了患者病史数据，有助于模型学习患者的临床特征和疾病发展趋势。在数据集的标注过程中，医疗专业人员进行了严格的标注和验证，保证了标注的一致性和准确性。此外，数据集还包含了多种数据集的融合结果，如PubMed摘要和临床笔记等，为模型的跨领域迁移学习提供了可能。

使用方法

RuCCoD数据集的使用方法主要分为以下几个步骤：1）数据预处理：对原始数据进行清洗和格式化，去除无关信息，保留重要的诊断实体和ICD代码。2）模型训练：使用标注好的数据集训练ICD编码模型，如BERT、LLaMA等。3）模型评估：使用测试集对模型进行评估，评估指标包括精确率、召回率、F1分数等。4）模型应用：将训练好的模型应用于实际场景，如电子健康记录的ICD编码等。此外，数据集还包含了患者病史数据，可以用于疾病的诊断预测和趋势分析。在使用数据集的过程中，需要注意保护患者隐私，确保数据的安全性。

背景与挑战

背景概述

RuCCoD（俄罗斯ICD编码数据集）是一个重要的数据集，旨在推动俄语临床编码的自动化。该数据集的创建时间为2025年，由来自俄罗斯莫斯科的AIRI、Sber AI、Sber AI Lab和HSE大学的研究人员共同完成。RuCCoD数据集的核心研究问题在于如何利用有限的生物医学资源，实现对俄语医疗数据的自动编码。该数据集包含超过10,000个实体和1,500个独特的ICD编码，为ICD编码提供了重要的基准数据。此外，RuCCoD数据集还展示了自动预测编码在提高编码准确性和临床效率方面的巨大潜力，为资源有限的俄语医疗数据编码提供了新的思路。

当前挑战

RuCCoD数据集在构建过程中面临的主要挑战包括：1）俄语作为非英语语言，其生物医学资源相对有限，这给ICD编码带来了困难；2）ICD编码任务本身具有较高的复杂性，涉及大量的医学术语、主观解释和时间压力，这对编码人员的专业知识和经验提出了很高的要求；3）RuCCoD数据集的构建过程中，如何确保编码的一致性和准确性也是一个重要的挑战。尽管RuCCoD数据集为俄语ICD编码提供了重要的基准数据，但在实际应用中，如何确保编码的准确性和一致性，以及如何进一步提高编码效率，仍然是需要进一步研究和解决的问题。

常用场景

经典使用场景

RuCCoD数据集主要用于评估自动化ICD编码在俄语中的可行性。该数据集包括来自电子健康记录（EHRs）的诊断字段，这些字段被标注了超过10,000个实体和超过1,500个唯一的ICD代码。该数据集为几种最先进的模型（包括BERT、LLaMA with LoRA和RAG）提供了一个基准，并进行了额外的实验，以检验模型在跨领域（从PubMed摘要到医学诊断）和术语（从UMLS概念到ICD代码）的迁移学习。然后，我们将表现最佳的模型应用于包含2017年至2021年患者病史的内部EHR数据集。我们的实验结果表明，与医生手动标注的数据相比，使用自动预测的代码进行训练可以显著提高准确性。

衍生相关工作

RuCCoD数据集衍生了多个相关的研究工作，包括在资源有限的语言中进行自动化ICD编码、疾病诊断预测和医疗数据管理。这些研究工作展示了在资源有限的语言环境中自动化临床编码的潜力，并提供了自动化数据标注对于训练疾病诊断模型的有效性。此外，这些研究工作还展示了自动标注数据对于提高诊断预测准确性的重要性。

数据集最近研究