clef_ehealth_2019

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/heliumind/clef_ehealth_2019

下载链接

链接失效反馈

官方服务：

资源简介：

CLEF eHealth 2019数据集包含8386个关于在德国进行的动物实验的非技术性摘要（NTS），每个摘要都包括标题、实验目的、对动物的潜在伤害以及关于替代、减少和精炼的评论。所有文档均为德语。数据集包括专家手动分配给NTS的ICD-10代码。数据集分为训练集、验证集和测试集，用于多标签分类任务。

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

在医学信息抽取领域，CLEF eHealth 2019数据集的构建体现了严谨的学术规范。该数据集源自德国AnimalTestInfo数据库中8,386份动物实验非技术性摘要，由专业团队通过人工标注方式，依据ICD-10德国修改版2016标准对每份摘要进行疾病分类编码。原始文本经过严格筛选，剔除了不符合编码要求的摘要，确保了数据质量。标注过程由领域专家完成，采用章节或组别的粒度进行ICD-10编码，体现了生物医学文本处理的特殊性。

使用方法

该数据集主要服务于多标签文本分类任务，特别适用于ICD-10编码自动化的研究。使用者可通过HuggingFace平台直接加载预处理好的数据分割，包含训练集、验证集和测试集。处理流程建议遵循标准文本分类流程，需注意德语文本的特殊处理要求。实验设计可参考原始CLEF eHealth竞赛方案，重点关注多标签分类指标如宏平均F1值。基于CC BY-NC-ND 4.0许可，研究者需遵守非商业用途的限制要求。

背景与挑战

背景概述

CLEF eHealth 2019数据集由Bundesinstitut für Risikobewertung (BfR)的Mariana Neves等研究人员于2019年构建，专注于动物实验非技术摘要（NTS）的多标签分类任务。该数据集收录了德国境内进行的8,386项动物实验的非技术摘要，涵盖实验目的、动物伤害及3R原则（替代、减少、优化）相关评论，并附有专家手动标注的ICD-10-GM诊断代码。作为CLEF eHealth 2019评测任务的核心数据，该数据集推动了生物医学文本挖掘与多标签分类技术的交叉研究，为伦理审查与科研管理提供了结构化数据支持。

当前挑战

该数据集面临双重挑战：在领域问题层面，动物实验摘要的语义复杂性导致ICD-10编码困难，需处理专业术语与模糊描述的映射问题，且多标签场景下类别不平衡现象显著；在构建过程中，德语文本的语法特性增加了自动处理难度，专家标注成本高昂，部分摘要因不符合ICD-10适用范围而被剔除，引发数据覆盖完整性的争议。此外，3R原则评论字段的文本异构性对特征工程提出了特殊要求。

常用场景

经典使用场景

在生物医学信息抽取领域，CLEF eHealth 2019数据集以其德语动物实验非技术性摘要（NTS）和专家标注的ICD-10编码体系，成为多标签文本分类任务的基准数据集。其经典应用场景体现在对实验目的、动物伤害描述等文本片段进行自动化ICD编码预测，为后续构建基于3R原则（替代、减少、优化）的伦理审查系统提供结构化数据支持。

解决学术问题

该数据集有效解决了医学文本多标签分类中的关键挑战：如何对非结构化生物医学文本进行细粒度编码映射。通过提供德语领域首个动物实验相关的ICD-10标注语料，填补了跨语言医学信息处理的研究空白，为开发兼顾语义理解与分类精度的多标签模型提供了验证平台。其标注体系遵循国际疾病分类标准，使得研究成果可直接应用于临床决策支持系统。

实际应用

在实际医疗信息化建设中，该数据集支撑的自动编码技术已应用于德国动物实验数据库的智能检索系统。通过将非技术性摘要自动关联至ICD-10体系，显著提升了监管部门对实验方案的审查效率。同时，基于该数据集训练的模型可扩展至其他德语医疗文档处理场景，如电子病历自动编码和医保索赔分类。

数据集最近研究