microsoft/msr_genomics_kbcomp
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/msr_genomics_kbcomp
下载链接
链接失效反馈官方服务:
资源简介:
该数据集源自NCI PID通路相互作用数据库,包含基因间的调控关系及PubMed文章摘要中基因对的文本提及。数据集用于研究论文知识库和文本中关系路径的组合学习嵌入,包含GENE1、relation、GENE2等特征,其中relation包括正向调控、负向调控和家族关系。数据集分为训练、测试和验证集,仅支持英文。
该数据集源自NCI PID通路相互作用数据库,包含基因间的调控关系及PubMed文章摘要中基因对的文本提及。数据集用于研究论文知识库和文本中关系路径的组合学习嵌入,包含GENE1、relation、GENE2等特征,其中relation包括正向调控、负向调控和家族关系。数据集分为训练、测试和验证集,仅支持英文。
提供机构:
microsoft
原始信息汇总
数据集概述
数据集基本信息
- 名称: MsrGenomicsKbcomp
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 其他
- 标签: genomics-knowledge-base-completion
数据集结构
数据字段
- GENE1: 数据类型为字符串
- relation: 数据类型为分类标签,包含三个类别:Positive_regulation, Negative_regulation, Family
- GENE2: 数据类型为字符串
数据分割
- 训练集: 包含12160个样本,总大小为256789字节
- 测试集: 包含2784个样本,总大小为58116字节
- 验证集: 包含1315个样本,总大小为27457字节
数据集创建
数据集创建者
- 创建者: Kristina Toutanova, Victoria Lin, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 创建机构: 微软研究院
数据集来源
- 原始数据来源: NCI PID Pathway Interaction Database
- 文本提及来源: PubMed abstracts
- 处理与注释工具: Literome
数据集用途
- 用途: 用于论文“Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text”中的知识库完成任务
数据集格式
- 文件格式: 包含train.txt, valid.txt, test.txt, text.txt
- 分隔符: 制表符
- 数据格式: GENE1 relation GENE2
- 示例: ABL1 Positive_regulation CDK2



