FRACCO
收藏arXiv2025-10-13 更新2025-11-05 收录
下载链接:
https://github.com/SimedDataTeam/FRACCO
下载链接
链接失效反馈官方服务:
资源简介:
FRACCO(法语临床肿瘤学注释语料库)是一个专家注释的语料库,包含1301个合成法语临床案例,最初是从西班牙语CANTEMIST语料库翻译而来。每个文档都使用国际肿瘤疾病分类(ICD-O)作为参考,注释了与形态学、部位和组织学分化相关的术语。数据集包括71,065个实体注释,分为四个类别:形态学、部位、分化和高级复合标签expression_CIM,后者将多个ICD-O组件组合成一个单一的临床表达。数据集提供了399个独特的形态学代码、272个部位代码和2,043个独特的复合表达式,为法语肿瘤学中的命名实体识别和概念标准化提供了参考标准。
FRACCO (French Clinical Oncology Annotated Corpus) is an expert-annotated corpus consisting of 1,301 synthetic French clinical cases, originally translated from the Spanish CANTEMIST corpus. Each document is annotated with terms related to morphology, topography and histological differentiation, using the International Classification of Diseases for Oncology (ICD-O) as the reference standard. The dataset includes 71,065 entity annotations, which are divided into four categories: morphology, topography, differentiation, and the high-level composite label expression_CIM, which combines multiple ICD-O components into a single clinical expression. The corpus features 399 unique morphology codes, 272 topography codes and 2,043 distinct composite expressions, serving as a reference standard for named entity recognition and concept normalization in French oncology.
提供机构:
日内瓦大学医院
创建时间:
2025-10-13
搜集汇总
数据集介绍

构建方式
在法语肿瘤学临床文本资源匮乏的背景下,FRACCO数据集通过多阶段流程构建而成。其基础源自西班牙语CANTEMIST语料库的1301份合成临床病例,经由DeepL机器翻译系统转化为法语文本。原始标注通过句子级对齐和字符匹配技术投射至译文,并由两名领域专家对实体边界进行人工校验与扩展。标注体系在原有形态学代码基础上新增了拓扑学、分化程度及复合表达层,通过字典匹配与人工验证相结合的方式完成ICD-O-3标准化,最终形成包含71,127项标注的高质量语料。
特点
该数据集的核心特征体现在其多层次标注体系与专业标准化处理。除基础实体标注外,创新性地引入表达级复合标注层,将形态学、拓扑学和分化程度组合为统一临床表达,覆盖11,144种独特表达形式。标注数据呈现显著临床代表性,前三位复合代码分别对应未定性质肿瘤、转移性肿瘤和恶性肿瘤。通过专家验证机制确保标注质量,实体边界标注的软F1分数达0.82-0.90,ICD-O编码自动匹配准确率达80.65%,展现出良好的医学概念覆盖度与标注一致性。
使用方法
该数据集以BRAT标注格式分发,包含配对出现的文本文件与标注文件。研究者可通过配套的Python工具链实现标注解析、ICD-O代码检索及CSV格式转换。在自然语言处理任务中,该资源支持命名实体识别与概念标准化模型的训练验证,实验表明基于BERT的模型在测试集上加权F1分数可达89.4%。对于临床研究,复合表达标注层特别适用于肿瘤学语义解析任务,其结构化编码体系为跨语言医学信息抽取研究提供了标准化接口。
背景与挑战
背景概述
在临床信息学领域,电子健康记录中大量非结构化文本数据的处理一直是关键挑战。FRACCO数据集由日内瓦大学医院信息科学服务与精准肿瘤学部门于2023年联合创建,旨在填补法语肿瘤学领域标注资源的空白。该数据集基于西班牙语CANTEMIST语料库通过跨语言转换构建,包含1,301个合成临床病例,采用国际疾病分类肿瘤学第三版对形态学、解剖部位和分化程度进行标准化标注。其创新性在于引入表达级复合标注层,将多维度临床表述整合为统一实体,为法语肿瘤学术语识别与概念标准化研究提供了重要基准。
当前挑战
该数据集主要应对肿瘤学术语标准化与跨语言迁移的双重挑战。在领域问题层面,需解决临床文本中复合表达的多义性解析,例如‘肺低分化鳞癌’需同时映射形态学、解剖学与分化等级代码;构建过程中面临机器翻译导致的术语失真,需通过迭代校正流程修订961处误译。此外,ICD-O术语体系对复杂临床表达的覆盖不足,导致15,000个标注需人工介入验证,其标准化过程专家间一致性仅达51.5%,凸显了肿瘤学术语体系与自然语言表达间的语义鸿沟。
常用场景
经典使用场景
在临床自然语言处理领域,FRACCO数据集作为法语肿瘤学文本的基准资源,其经典应用场景聚焦于命名实体识别与概念规范化任务。该数据集通过标注形态学、解剖部位和分化程度等肿瘤学实体,并映射至国际疾病分类肿瘤学编码体系,为开发法语临床文本信息抽取模型提供了标准化训练与评估平台。
解决学术问题
该数据集有效解决了法语肿瘤学文本缺乏高质量标注资源的学术瓶颈,通过提供超过七万条ICD-O标准化标注,支撑了跨语言临床NLP方法验证、低资源语言医学实体规范化等关键研究。其复合表达层标注突破了传统单实体标注局限,为临床语义解析提供了结构化表示范式,显著推进了医学知识图谱构建与临床决策支持系统的研究进程。
衍生相关工作
该数据集衍生出多项跨语言医学NLP创新研究,例如基于FRASIMED项目的双语标注迁移框架,以及融合CamemBERT等预训练模型的实体识别系统。其标注范式进一步启发了针对稀有癌种的细分标注方案,并与SNOMED CT术语系统形成互补,推动了多模态临床信息集成方法的发展。
以上内容由遇见数据集搜集并总结生成



