five

DFKI-SLT/MedDistant19

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/MedDistant19
下载链接
链接失效反馈
官方服务:
资源简介:
MedDistant19是一个通过将2019年的PubMed MEDLINE摘要与UMLS Metathesaurus 2019中的SNOMED-CT知识图谱对齐而创建的远程监督生物医学关系提取(Bio-DSRE)语料库。该数据集主要用于多类分类任务,特别是生物医学关系提取。数据集包含文本、头实体、尾实体和关系等字段,所有数据均为英文。使用该数据集前需要签署UMLS协议。

MedDistant19是一个通过将2019年的PubMed MEDLINE摘要与UMLS Metathesaurus 2019中的SNOMED-CT知识图谱对齐而创建的远程监督生物医学关系提取(Bio-DSRE)语料库。该数据集主要用于多类分类任务,特别是生物医学关系提取。数据集包含文本、头实体、尾实体和关系等字段,所有数据均为英文。使用该数据集前需要签署UMLS协议。
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

名称: MedDistant19

语言: 英语

任务类型: 文本分类

任务: 多类分类

数据集来源:

  • PubMed
  • UMLS

数据集大小:

  • 训练集: 450071 个样本,114832958 字节
  • 验证集: 39434 个样本,10158868 字节
  • 测试集: 91568 个样本,23816522 字节

下载大小: 85782402 字节

数据集大小: 148808348 字节

特征:

  • text: 文本内容,字符串类型
  • h: 头部实体
    • id: 实体标识,字符串类型
    • pos: 实体位置,整数列表
    • name: 实体名称,字符串类型
  • t: 尾部实体
    • id: 实体标识,字符串类型
    • pos: 实体位置,整数列表
    • name: 实体名称,字符串类型
  • relation: 关系标签,包含多个类别如 active_ingredient_of, associated_finding_of 等

许可证: 其他

标签:

  • 医学
  • 关系提取

数据集创建:

  • 注释创建者: 远监督
  • 语言创建者: 发现

数据集结构:

  • 数据分为训练、验证和测试集
  • 每个实例包含文本、头部实体、尾部实体和关系标签

使用前须知:

  • 使用此数据集需签署UMLS协议,并每年提交使用报告
  • 需尊重UMLS中的版权材料,并在商业或生产应用中获得每个版权源的许可
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作