DFKI-SLT/MedDistant19
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/MedDistant19
下载链接
链接失效反馈官方服务:
资源简介:
MedDistant19是一个通过将2019年的PubMed MEDLINE摘要与UMLS Metathesaurus 2019中的SNOMED-CT知识图谱对齐而创建的远程监督生物医学关系提取(Bio-DSRE)语料库。该数据集主要用于多类分类任务,特别是生物医学关系提取。数据集包含文本、头实体、尾实体和关系等字段,所有数据均为英文。使用该数据集前需要签署UMLS协议。
MedDistant19是一个通过将2019年的PubMed MEDLINE摘要与UMLS Metathesaurus 2019中的SNOMED-CT知识图谱对齐而创建的远程监督生物医学关系提取(Bio-DSRE)语料库。该数据集主要用于多类分类任务,特别是生物医学关系提取。数据集包含文本、头实体、尾实体和关系等字段,所有数据均为英文。使用该数据集前需要签署UMLS协议。
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
名称: MedDistant19
语言: 英语
任务类型: 文本分类
任务: 多类分类
数据集来源:
- PubMed
- UMLS
数据集大小:
- 训练集: 450071 个样本,114832958 字节
- 验证集: 39434 个样本,10158868 字节
- 测试集: 91568 个样本,23816522 字节
下载大小: 85782402 字节
数据集大小: 148808348 字节
特征:
text: 文本内容,字符串类型h: 头部实体id: 实体标识,字符串类型pos: 实体位置,整数列表name: 实体名称,字符串类型
t: 尾部实体id: 实体标识,字符串类型pos: 实体位置,整数列表name: 实体名称,字符串类型
relation: 关系标签,包含多个类别如 active_ingredient_of, associated_finding_of 等
许可证: 其他
标签:
- 医学
- 关系提取
数据集创建:
- 注释创建者: 远监督
- 语言创建者: 发现
数据集结构:
- 数据分为训练、验证和测试集
- 每个实例包含文本、头部实体、尾部实体和关系标签
使用前须知:
- 使用此数据集需签署UMLS协议,并每年提交使用报告
- 需尊重UMLS中的版权材料,并在商业或生产应用中获得每个版权源的许可
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



