DrBenchmark/QUAERO
收藏Hugging Face2025-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DrBenchmark/QUAERO
下载链接
链接失效反馈官方服务:
资源简介:
QUAERO法语医学语料库最初是作为命名实体识别和标准化的资源开发的,随后被改进为创建法语生物医学文本的标准化实体黄金标准集,用于CLEF eHealth评估实验室。该数据集包括从MEDLINE标题和EMEA文档中手动注释的数据,注释过程基于统一医学语言系统(UMLS)的概念。数据集包含训练、开发和测试数据,分别以BioC格式发布。
提供机构:
DrBenchmark
原始信息汇总
数据集概述
基本信息
- 名称: QUAERO
- 语言: 法语(fr)
- 许可证: 其他
- 多语言性: 单语
- 任务类别: 词元分类
- 标签: 医学
- 数据集大小: 1K<n<10K
数据集描述
- 主页: https://quaerofrenchmed.limsi.fr/
- 是否公开: 是
- 任务: 命名实体识别(NER)
数据集内容
- 原始用途: 用于命名实体识别和规范化。
- 改进目的: 创建法语生物医学文本的黄金标准规范化实体集,用于CLEF eHealth评估实验室。
- 注释指南: 基于统一医学语言系统(UMLS)的概念进行手动注释,包括10种类型的临床实体。
- 注释细节:
- 嵌套实体被标记。
- 一个提及可以映射到多个UMLS概念。
- 实体重叠时仍需注释。
数据集版本
- 训练数据:
- MEDLINE_train_bioc文件: 833 MEDLINE标题,BioC格式注释。
- EMEA_train_bioc文件: 3 EMEA文档,分割成11个子文档,BioC格式注释。
- 开发数据:
- MEDLINE_dev_bioc文件: 832 MEDLINE标题,BioC格式注释。
- EMEA_dev_bioc文件: 3 EMEA文档,分割成12个子文档,BioC格式注释。
- 测试数据:
- MEDLINE_test_bioc文件夹: 833 MEDLINE标题,BioC格式注释。
- EMEA_test_bioc文件夹: 4 EMEA文档,分割成15个子文档,BioC格式注释。
数据格式
- 格式: BioC格式,通过Brat2BioC工具从原始BRAT格式自动转换。
联系方式
- 问题咨询: aurelie.neveol@limsi.fr



