five

bigbio/bioasq_2021_mesinesp

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/bioasq_2021_mesinesp
下载链接
链接失效反馈
官方服务:
资源简介:
MESINESP 2021数据集的主要目标是促进非英语生物医学内容的语义索引工具的开发。该数据集包含一个手动注释的语料库,其中领域专家对一组科学文献、临床试验和专利摘要进行了标注。所有文档均使用DeCS描述符进行标注,DeCS是由BIREME创建的结构化受控词汇表,用于在BvSalud数据库中索引科学出版物。BvSalud是西班牙语科学文献的最大数据库,包含来自LILACS、MEDLINE、IBECS等数据库的记录。MESINESP在BioASQ9中的任务探索了为不同类型的生物医学文档分配DeCS描述符的系统效率。为此,任务根据文档类型分为三个子任务,并为每个子任务生成了一个注释语料库,供参与团队使用:1. MESINESP-L – 科学文献:包含来自虚拟健康图书馆(VHL)的LILACS和IBECS数据库中的所有西班牙语记录,且摘要为非空。2. MESINESP-T – 临床试验:包含来自西班牙临床试验注册中心(REEC)的记录。由于REEC不提供BioASQ所需的标题/摘要结构的文档,因此我们基于REEC API爬取的数据构建了人工摘要。3. MESINESP-P – 专利:包括从Google Patents提取的西班牙语专利,这些专利具有IPC代码“A61P”和“A61K31”。此外,还提供了一组补充数据,如DeCS术语文件、参与者对任务背景集的预测的银标准,以及从BSC NERs文档中提取的药物、疾病、症状和医疗程序实体。
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 名称: MESINESP 2021
  • 语言: 西班牙语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 公共可用性: 是
  • 任务类型: 文本分类

数据集描述

  • 目标: 促进非英语语言生物医学内容实用语义索引工具的开发。
  • 内容: 包含由领域专家手动标注的科学文献、临床试验和专利摘要。所有文档均使用DeCS描述符进行标注。
  • 数据来源: 来自Virtual Health Library (VHL)的LILACS和IBECS数据库、Registro Español de Estudios Clínicos (REEC)和Google Patents。

子任务描述

  1. MESINESP-L (科学文献): 包含VHL中LILACS和IBECS数据库的西班牙语记录,具有非空摘要。
  2. MESINESP-T (临床试验): 包含来自REEC的记录,人工构建的摘要。
  3. MESINESP-P (专利): 包含来自Google Patents的西班牙语专利,IPC代码为“A61P”和“A61K31”。

附加信息

  • 提供DeCS术语文件、参与者预测的银标准集以及从BSC NER文档中提取的药物、疾病、症状和医疗程序实体。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作