five

liupf/KAR4DDI

收藏
Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/liupf/KAR4DDI
下载链接
链接失效反馈
官方服务:
资源简介:
本研究中的数据集是一个药物-药物相互作用事件(DDIE)数据集,来源于DeepDDI 2。该数据集包含2,386种药物的详细信息,每种药物由一个50维的主成分分析(PCA)特征向量和相应的SMILES字符串表示。此外,数据集还整合了来自DDInter和DrugBank的药物描述。DDIE数据集包含222,127对药物,能够预测113种不同的DDIE类型。由于临床环境中罕见和记录不全的药物相互作用频繁发生,处理少样本场景至关重要。数据样本在不同交互频率类别(常见、少量、罕见)中的分布情况也被详细列出,并解释了如何处理不同频率类别的挑战。知识提取方法包括将药物特征转换为药物类型,通过t-SNE进行降维,并使用K-means、Birch和Agglomerative聚类算法进行聚类分析。

本研究中的数据集是一个药物-药物相互作用事件(DDIE)数据集,来源于DeepDDI 2。该数据集包含2,386种药物的详细信息,每种药物由一个50维的主成分分析(PCA)特征向量和相应的SMILES字符串表示。此外,数据集还整合了来自DDInter和DrugBank的药物描述。DDIE数据集包含222,127对药物,能够预测113种不同的DDIE类型。由于临床环境中罕见和记录不全的药物相互作用频繁发生,处理少样本场景至关重要。数据样本在不同交互频率类别(常见、少量、罕见)中的分布情况也被详细列出,并解释了如何处理不同频率类别的挑战。知识提取方法包括将药物特征转换为药物类型,通过t-SNE进行降维,并使用K-means、Birch和Agglomerative聚类算法进行聚类分析。
提供机构:
liupf
原始信息汇总

数据集概述

数据集简介

  • 名称: Drug-Drug Interaction Event (DDIE) 数据集
  • 来源: DeepDDI 2
  • 包含信息:
    • 2,386种药物的50维主成分分析(PCA)特征向量
    • 对应的SMILES字符串
    • 来自DDInter和DrugBank的药物描述
  • 数据量: 222,127对药物
  • 任务类型: 预测113种不同的DDIE类型

数据样本分布

  • 分类: 根据DDIE发生频率分为common, few, 和 rare三类
  • 分布:
    • 训练集:
      • Common: 44,126
      • Few: 108
      • Rare: 43
    • 验证集:
      • Common: 44,113
      • Few: 128
      • Rare: 34
    • 测试集:
      • Common: 132,110
      • Few: 298
      • Rare: 85
  • 处理:
    • 移除少于两个样本的类别
    • 剩余样本按2:2:6的比例分配到训练、验证和测试集

知识提取

  • 特征转换: 将药物特征转换为药物类型
  • 降维: 使用t-SNE将特征降维至2维,便于可视化和聚类
  • 聚类算法:
    • K-means
    • Birch
    • Agglomerative clustering
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作