five

DrBenchmark/QUAERO

收藏
Hugging Face2025-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DrBenchmark/QUAERO
下载链接
链接失效反馈
官方服务:
资源简介:
QUAERO法语医学语料库最初是作为命名实体识别和标准化的资源开发的,随后被改进为创建法语生物医学文本的标准化实体黄金标准集,用于CLEF eHealth评估实验室。该数据集包括从MEDLINE标题和EMEA文档中手动注释的数据,注释过程基于统一医学语言系统(UMLS)的概念。数据集包含训练、开发和测试数据,分别以BioC格式发布。
提供机构:
DrBenchmark
原始信息汇总

数据集概述

基本信息

  • 名称: QUAERO
  • 语言: 法语(fr)
  • 许可证: 其他
  • 多语言性: 单语
  • 任务类别: 词元分类
  • 标签: 医学
  • 数据集大小: 1K<n<10K

数据集描述

  • 主页: https://quaerofrenchmed.limsi.fr/
  • 是否公开: 是
  • 任务: 命名实体识别(NER)

数据集内容

  • 原始用途: 用于命名实体识别和规范化。
  • 改进目的: 创建法语生物医学文本的黄金标准规范化实体集,用于CLEF eHealth评估实验室。
  • 注释指南: 基于统一医学语言系统(UMLS)的概念进行手动注释,包括10种类型的临床实体。
  • 注释细节:
    • 嵌套实体被标记。
    • 一个提及可以映射到多个UMLS概念。
    • 实体重叠时仍需注释。

数据集版本

  • 训练数据:
    • MEDLINE_train_bioc文件: 833 MEDLINE标题,BioC格式注释。
    • EMEA_train_bioc文件: 3 EMEA文档,分割成11个子文档,BioC格式注释。
  • 开发数据:
    • MEDLINE_dev_bioc文件: 832 MEDLINE标题,BioC格式注释。
    • EMEA_dev_bioc文件: 3 EMEA文档,分割成12个子文档,BioC格式注释。
  • 测试数据:
    • MEDLINE_test_bioc文件夹: 833 MEDLINE标题,BioC格式注释。
    • EMEA_test_bioc文件夹: 4 EMEA文档,分割成15个子文档,BioC格式注释。

数据格式

  • 格式: BioC格式,通过Brat2BioC工具从原始BRAT格式自动转换。

联系方式

  • 问题咨询: aurelie.neveol@limsi.fr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作