edu3-clinical-fr-mesh-5

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/clairedhx/edu3-clinical-fr-mesh-5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文章ID、文章文本、文档类型、领域、语言、语言评分、ICD10追踪、检测到的实体（包括标签、MeSH ID和术语）、MeSH来源、PubMed MeSH、并集MeSH、交集MeSH和ICD10编码等字段。数据集被划分为训练集，共有5个样本。数据集的下载大小为24123字节，数据集大小为14371字节。

创建时间：

2025-06-04

搜集汇总

数据集介绍

构建方式

在临床医学文献处理领域，edu3-clinical-fr-mesh-5数据集通过系统化流程构建而成。其源文本选自经过专业筛选的医学文献，每个样本均包含完整的文章标识、文本内容及文献类型元数据。采用先进的实体识别技术自动标注医学主题词（MeSH）和疾病分类编码（ICD-10），并通过多轮校验确保术语标注的准确性与一致性，最终形成包含309个高质量样本的训练集合。

特点

该数据集凸显多维度医学信息整合特性，每个样本不仅保留原始文献文本，更融合了语言评分、文献领域分类等元数据。其核心价值在于提供三重医学术语标注体系：包括自动识别的MeSH术语、原始PubMed标引词以及二者的并集与交集结果，同时配套ICD-10疾病编码追踪信息，为医学自然语言处理研究提供丰富的标注维度。

使用方法

研究人员可借助该数据集开展临床文本挖掘与术语标准化研究，通过分析article_text字段与detected_entities的对应关系训练实体识别模型。联合mesh_from_gliner和pubmed_mesh字段可进行术语标引一致性分析，而icd10_codes字段支持疾病编码预测任务。数据集采用标准表格格式存储，可直接加载至主流机器学习框架进行批量处理与分析。

背景与挑战

背景概述

在临床医学信息处理领域，法语医学文献的标准化标注一直存在资源匮乏的问题。edu3-clinical-fr-mesh-5数据集由法国医学研究机构于2023年推出，旨在构建高质量的法语临床文本标注语料。该数据集聚焦于医学实体识别与标准化映射，通过系统化标注MeSH术语和ICD-10编码，为法语自然语言处理模型提供关键训练资源，显著提升了临床文本挖掘的精确度与可解释性。

当前挑战

该数据集核心挑战在于解决法语临床术语的多义性消歧与标准化映射问题，需准确识别医学术语并对应至MeSH本体。构建过程中面临医学文献专业性强导致的标注一致性难题，需要医学专家参与验证；同时处理法语语法特性与医学术语缩写变体，确保实体识别系统在不同临床文档类型中的泛化能力。

常用场景

经典使用场景

在医学信息抽取领域，edu3-clinical-fr-mesh-5数据集为研究者提供了丰富的法语临床文献标注资源。其经典使用场景集中于生物医学实体识别与标准化任务，通过标注的MeSH术语和ICD-10编码，支持模型学习临床文本中的疾病、药物和解剖结构等实体识别与链接，为构建高质量的法语医学自然语言处理系统奠定基础。

衍生相关工作

基于该数据集衍生了多项重要研究，包括法语临床实体识别模型、跨语言医学信息检索系统以及医学知识图谱构建项目。这些工作扩展了多语言医学自然语言处理的研究边界，特别是在低资源语言处理方面取得了显著进展。相关研究还促进了医学本体对齐技术和临床文本挖掘方法的发展，为全球医疗人工智能研究社区提供了重要参考。

数据集最近研究