five

mnaguib/QuaeroFrenchMed

收藏
Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mnaguib/QuaeroFrenchMed
下载链接
链接失效反馈
官方服务:
资源简介:
QUAERO法语医学语料库最初是作为命名实体识别和标准化的资源开发的,后来被改进用于创建法语生物医学文本的标准化实体黄金标准集,该标准集用于CLEF eHealth评估实验室。数据集包含从MEDLINE标题和EMEA文档中手动注释的临床实体,注释过程基于统一医学语言系统(UMLS)的概念。数据集中的实体被分为十种类型,每种类型对应UMLS语义组。该版本的数据集在格式和内容上进行了修改,移除了嵌套实体,仅保留了最大的嵌套实体,这相当于原始数据集中80%的实体。每个句子中的单词都有一个对应的ner_tag,用于表示临床实体的类型。
提供机构:
mnaguib
原始信息汇总

数据集概述

数据集名称

QUAERO French Medical Corpus

语言

  • 法语(fr)

任务类别

  • 词性标注(token-classification)

领域

  • 医疗

数据集修改说明

  • 此版本数据集在格式和内容上与原始数据集有所不同,原始数据集可在此处获取:链接
  • 移除了嵌套实体,仅保留了最大的嵌套实体。
  • 此版本数据集包含了原始数据集中80%的标注实体。

数据集开发目的

  • 初始开发用于命名实体识别和规范化。
  • 改进后用于创建法语生物医学文本的黄金标准规范化实体集,用于CLEF eHealth评估实验室。

数据来源与标注

  • 数据来源:MEDLINE标题和EMEA文档。
  • 标注过程遵循统一医学语言系统(UMLS)中的概念。
  • 标注了10种类型的临床实体,涉及UMLS的10个语义组。

标注细节

  • 全面标注,包括嵌套实体和多重映射到UMLS概念。
  • 如果提及可以指代多个语义组,则应标注所有相关语义组。
  • 如果提及可以指代同一语义组内的多个UMLS概念,则应标注所有相关概念。
  • 即使实体与其他实体重叠,也应进行标注。

实体类型与标签映射

0: "O" 1: "DISO" 2: "PROC" 3: "ANAT" 4: "LIVB" 5: "CHEM" 6: "PHYS" 7: "PHEN" 8: "GEOG" 9: "DEVI" 10: "OBJC"

参考文献

  1. Névéol A, Grouin C, Leixa J, Rosset S, Zweigenbaum P. The QUAERO French Medical Corpus: A Resource for Medical Entity Recognition and Normalization. Fourth Workshop on Building and Evaluating Resources for Health and Biomedical Text Processing - BioTxtM2014. 2014:24-30
  2. Névéol A, Grouin C, Tannier X, Hamon T, Kelly L, Goeuriot L, Zweigenbaum P. (2015) Task 1b of the CLEF eHealth Evaluation Lab 2015: Clinical Named Entity Recognition. CLEF 2015 Evaluation Labs and Workshop: Online Working Notes, CEUR-WS, September, 2015.
  3. Névéol A, Cohen, KB, Grouin C, Hamon T, Lavergne T, Kelly L, Goeuriot L, Rey G, Robert A, Tannier X, Zweigenbaum P. Clinical Information Extraction at the CLEF eHealth Evaluation lab 2016. CLEF 2016, Online Working Notes, CEUR-WS 1609.2016:28-42.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作