liupf/KAR4DDI
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/liupf/KAR4DDI
下载链接
链接失效反馈官方服务:
资源简介:
本研究中的数据集是一个药物-药物相互作用事件(DDIE)数据集,来源于DeepDDI 2。该数据集包含2,386种药物的详细信息,每种药物由一个50维的主成分分析(PCA)特征向量和相应的SMILES字符串表示。此外,数据集还整合了来自DDInter和DrugBank的药物描述。DDIE数据集包含222,127对药物,能够预测113种不同的DDIE类型。由于临床环境中罕见和记录不全的药物相互作用频繁发生,处理少样本场景至关重要。数据样本在不同交互频率类别(常见、少量、罕见)中的分布情况也被详细列出,并解释了如何处理不同频率类别的挑战。知识提取方法包括将药物特征转换为药物类型,通过t-SNE进行降维,并使用K-means、Birch和Agglomerative聚类算法进行聚类分析。
本研究中的数据集是一个药物-药物相互作用事件(DDIE)数据集,来源于DeepDDI 2。该数据集包含2,386种药物的详细信息,每种药物由一个50维的主成分分析(PCA)特征向量和相应的SMILES字符串表示。此外,数据集还整合了来自DDInter和DrugBank的药物描述。DDIE数据集包含222,127对药物,能够预测113种不同的DDIE类型。由于临床环境中罕见和记录不全的药物相互作用频繁发生,处理少样本场景至关重要。数据样本在不同交互频率类别(常见、少量、罕见)中的分布情况也被详细列出,并解释了如何处理不同频率类别的挑战。知识提取方法包括将药物特征转换为药物类型,通过t-SNE进行降维,并使用K-means、Birch和Agglomerative聚类算法进行聚类分析。
提供机构:
liupf
原始信息汇总
数据集概述
数据集简介
- 名称: Drug-Drug Interaction Event (DDIE) 数据集
- 来源: DeepDDI 2
- 包含信息:
- 2,386种药物的50维主成分分析(PCA)特征向量
- 对应的SMILES字符串
- 来自DDInter和DrugBank的药物描述
- 数据量: 222,127对药物
- 任务类型: 预测113种不同的DDIE类型
数据样本分布
- 分类: 根据DDIE发生频率分为common, few, 和 rare三类
- 分布:
- 训练集:
- Common: 44,126
- Few: 108
- Rare: 43
- 验证集:
- Common: 44,113
- Few: 128
- Rare: 34
- 测试集:
- Common: 132,110
- Few: 298
- Rare: 85
- 训练集:
- 处理:
- 移除少于两个样本的类别
- 剩余样本按2:2:6的比例分配到训练、验证和测试集
知识提取
- 特征转换: 将药物特征转换为药物类型
- 降维: 使用t-SNE将特征降维至2维,便于可视化和聚类
- 聚类算法:
- K-means
- Birch
- Agglomerative clustering



