five

microsoft/msr_genomics_kbcomp

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/msr_genomics_kbcomp
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集源自NCI PID通路相互作用数据库,包含基因间的调控关系及PubMed文章摘要中基因对的文本提及。数据集用于研究论文知识库和文本中关系路径的组合学习嵌入,包含GENE1、relation、GENE2等特征,其中relation包括正向调控、负向调控和家族关系。数据集分为训练、测试和验证集,仅支持英文。

该数据集源自NCI PID通路相互作用数据库,包含基因间的调控关系及PubMed文章摘要中基因对的文本提及。数据集用于研究论文知识库和文本中关系路径的组合学习嵌入,包含GENE1、relation、GENE2等特征,其中relation包括正向调控、负向调控和家族关系。数据集分为训练、测试和验证集,仅支持英文。
提供机构:
microsoft
原始信息汇总

数据集概述

数据集基本信息

  • 名称: MsrGenomicsKbcomp
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别: 其他
  • 标签: genomics-knowledge-base-completion

数据集结构

数据字段

  • GENE1: 数据类型为字符串
  • relation: 数据类型为分类标签,包含三个类别:Positive_regulation, Negative_regulation, Family
  • GENE2: 数据类型为字符串

数据分割

  • 训练集: 包含12160个样本,总大小为256789字节
  • 测试集: 包含2784个样本,总大小为58116字节
  • 验证集: 包含1315个样本,总大小为27457字节

数据集创建

数据集创建者

  • 创建者: Kristina Toutanova, Victoria Lin, Wen-tau Yih, Hoifung Poon, Chris Quirk
  • 创建机构: 微软研究院

数据集来源

  • 原始数据来源: NCI PID Pathway Interaction Database
  • 文本提及来源: PubMed abstracts
  • 处理与注释工具: Literome

数据集用途

  • 用途: 用于论文“Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text”中的知识库完成任务

数据集格式

  • 文件格式: 包含train.txt, valid.txt, test.txt, text.txt
  • 分隔符: 制表符
  • 数据格式: GENE1 relation GENE2
  • 示例: ABL1 Positive_regulation CDK2
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作