bigbio/quaero
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/quaero
下载链接
链接失效反馈官方服务:
资源简介:
QUAERO法语医学语料库最初是作为命名实体识别和归一化的资源开发的,后来被改进为创建法语生物医学文本的归一化实体黄金标准集,并用于CLEF eHealth评估实验室。该数据集包括MEDLINE标题和EMEA文档的手动注释,注释过程由统一医学语言系统(UMLS)的概念指导。数据集分为训练数据、开发数据和测试数据,分别以BioC格式提供。训练数据包括833个MEDLINE标题和3个EMEA文档,开发数据包括832个MEDLINE标题和3个EMEA文档,测试数据包括833个MEDLINE标题和4个EMEA文档。
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 名称: QUAERO French Medical Corpus
- 语言: 法语
- 许可证: GFDL_1p3
- 多语言性: 单语种
- 任务: 命名实体识别 (NER), 命名实体消歧 (NED)
数据集内容
- 训练数据:
- MEDLINE_train_bioc文件: 包含833篇MEDLINE标题,以BioC格式标注了规范化实体。
- EMEA_train_bioc文件: 包含3篇EMEA文档,分割为11个子文档,以BioC格式标注了规范化实体。
- 开发数据:
- MEDLINE_dev_bioc文件: 包含832篇MEDLINE标题,以BioC格式标注了规范化实体。
- EMEA_dev_bioc文件: 包含3篇EMEA文档,分割为12个子文档,以BioC格式标注了规范化实体。
- 测试数据:
- MEDLINE_test_bioc文件夹: 包含833篇MEDLINE标题,以BioC格式标注了规范化实体。
- EMEA_test_bioc文件夹: 包含4篇EMEA文档,分割为15个子文档,以BioC格式标注了规范化实体。
数据集特点
- 标注标准: 根据UMLS的十个语义组进行标注,包括解剖学、化学和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。
- 标注方法: 全面标注,支持嵌套实体和多重映射到UMLS概念。
数据集版本
- 当前版本: BioC格式,通过Brat2BioC工具从原始BRAT格式自动转换。
- 原始版本: BRAT格式,可从官网单独获取。
联系方式
- 问题咨询: aurelie.neveol@limsi.fr



