five

bigbio/quaero

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/quaero
下载链接
链接失效反馈
官方服务:
资源简介:
QUAERO法语医学语料库最初是作为命名实体识别和归一化的资源开发的,后来被改进为创建法语生物医学文本的归一化实体黄金标准集,并用于CLEF eHealth评估实验室。该数据集包括MEDLINE标题和EMEA文档的手动注释,注释过程由统一医学语言系统(UMLS)的概念指导。数据集分为训练数据、开发数据和测试数据,分别以BioC格式提供。训练数据包括833个MEDLINE标题和3个EMEA文档,开发数据包括832个MEDLINE标题和3个EMEA文档,测试数据包括833个MEDLINE标题和4个EMEA文档。
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 名称: QUAERO French Medical Corpus
  • 语言: 法语
  • 许可证: GFDL_1p3
  • 多语言性: 单语种
  • 任务: 命名实体识别 (NER), 命名实体消歧 (NED)

数据集内容

  • 训练数据:
    • MEDLINE_train_bioc文件: 包含833篇MEDLINE标题,以BioC格式标注了规范化实体。
    • EMEA_train_bioc文件: 包含3篇EMEA文档,分割为11个子文档,以BioC格式标注了规范化实体。
  • 开发数据:
    • MEDLINE_dev_bioc文件: 包含832篇MEDLINE标题,以BioC格式标注了规范化实体。
    • EMEA_dev_bioc文件: 包含3篇EMEA文档,分割为12个子文档,以BioC格式标注了规范化实体。
  • 测试数据:
    • MEDLINE_test_bioc文件夹: 包含833篇MEDLINE标题,以BioC格式标注了规范化实体。
    • EMEA_test_bioc文件夹: 包含4篇EMEA文档,分割为15个子文档,以BioC格式标注了规范化实体。

数据集特点

  • 标注标准: 根据UMLS的十个语义组进行标注,包括解剖学、化学和药物、设备、疾病、地理区域、生物、物体、现象、生理学、程序。
  • 标注方法: 全面标注,支持嵌套实体和多重映射到UMLS概念。

数据集版本

  • 当前版本: BioC格式,通过Brat2BioC工具从原始BRAT格式自动转换。
  • 原始版本: BRAT格式,可从官网单独获取。

联系方式

  • 问题咨询: aurelie.neveol@limsi.fr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作