five

DrugBank, TWOSIDES|药物相互作用数据集|数据挖掘数据集

收藏
arXiv2024-10-24 更新2024-10-26 收录
药物相互作用
数据挖掘
下载链接:
https://anonymous.4open.science/r/DDI-Benchmark-ACD9/
下载链接
链接失效反馈
资源简介:
本研究使用了两个广泛使用的公共药物相互作用(DDI)数据集:DrugBank和TWOSIDES。DrugBank包含86种药物之间的药理相互作用,而TWOSIDES记录了药物之间的副作用。这些数据集用于评估不同方法在预测药物相互作用中的性能。数据集的创建过程包括从公开的生物医学数据库中提取药物特征和相互作用信息,并通过图结构表示这些数据。这些数据集主要应用于药物相互作用预测领域,旨在通过计算方法识别潜在的不良相互作用和有益的药物组合,从而提高患者安全和治疗效果。
提供机构:
清华大学电子工程系
创建时间:
2024-10-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
DrugBank和TWOSIDES数据集的构建基于广泛使用的公共DDI数据源。DrugBank数据集包含86种药物间的药理相互作用,每对药物对应一种特定的相互作用类型。TWOSIDES数据集则记录了药物间的副作用,保留了209种相互作用类型,每对药物可能存在多种相互作用。数据集的构建过程中,使用了RDKit工具提取药物指纹作为初始药物特征,并结合了HetioNet和PrimeKG等生物医学网络作为辅助信息,以增强DDI预测的准确性。
使用方法
使用DrugBank和TWOSIDES数据集进行DDI预测时,首先需要提取药物指纹和生物医学网络信息作为输入特征。随后,可以采用多种机器学习方法,如多层感知器(MLP)、图神经网络(GNN)等,对药物对之间的相互作用进行建模和预测。在实际应用中,可以根据不同的场景设置(如新药引入、特定类型DDI预测等)调整模型的训练和评估策略,以提高预测的准确性和适应性。
背景与挑战
背景概述
药物-药物相互作用(DDI)预测在药理学和医疗保健领域中扮演着至关重要的角色,旨在识别潜在的不良相互作用和有益的联合疗法。近年来,图学习方法被广泛引入以预测药物-药物相互作用。然而,现有方法的评估存在若干局限性,如缺乏统一的比较框架、在有意义的现实场景中的评估不足以及对辅助信息使用的探索不足。为了解决这些未解决的局限性,我们提出了基于图学习的DDI预测基准。首先,我们对现有方法进行了统一的评估比较。为了满足现实场景的需求,我们进一步评估了不同方法在新药物参与和不同DDI类型中的表现。通过这些工作,我们希望为DDI预测问题提供更多见解。
当前挑战
DDI预测数据集的构建和应用面临多重挑战。首先,缺乏统一的评估比较框架,导致现有方法的评估结果难以直接比较。其次,现有方法在评估时很少考虑新药物或特殊DDI类型,而这些情况在现实场景中具有重要意义。此外,数据稀疏性是DDI预测中的常见问题,限制了机器学习方法的性能。为了应对这些挑战,我们进行了统一的和全面的实验,评估了现有方法在不同设置下的表现,并探索了生物医学网络中不同组件对DDI预测性能的贡献。
常用场景
经典使用场景
在药物-药物相互作用(DDI)预测领域,DrugBank和TWOSIDES数据集的经典应用场景主要集中在利用图学习方法进行药物相互作用预测。这些数据集通过提供详细的药物特征和相互作用信息,使得研究人员能够构建和评估各种图学习模型,如多层感知器(MLP)、图神经网络(GNN)和知识图谱嵌入方法(KG-DDI)。这些模型通过学习药物之间的复杂关系,能够有效预测潜在的药物相互作用,从而在药物开发和临床应用中提供重要的决策支持。
解决学术问题
DrugBank和TWOSIDES数据集解决了药物相互作用预测中的多个学术研究问题。首先,它们为统一评估框架的缺失提供了补救,通过提供标准化的数据集和评估指标,使得不同方法的比较成为可能。其次,这些数据集帮助研究人员在实际应用场景中评估模型性能,特别是在涉及新药物和特殊相互作用类型的情况下。此外,数据集还促进了对外部生物医学网络信息利用的探索,解决了数据稀疏性问题,从而提高了机器学习方法的性能。
实际应用
在实际应用中,DrugBank和TWOSIDES数据集被广泛用于药物开发和临床决策支持系统。通过这些数据集,制药公司可以预测新药物与其他药物的相互作用,从而优化药物组合和减少不良反应的风险。临床医生则可以利用这些预测结果来制定更安全的治疗方案,特别是在多药治疗的情况下。此外,这些数据集还支持药物再利用和药物组合疗法的研究,为复杂疾病的治疗提供了新的可能性。
数据集最近研究
最新研究方向
在药物相互作用(DDI)预测领域,最新的研究方向集中在利用图学习方法来解决现有评估方法的局限性。研究者们提出了一种统一的评估框架,旨在解决现有方法在实际应用场景中的不足,如缺乏统一的比较框架、在现实世界场景中的评估不足以及对辅助信息利用的探索不足。通过引入图学习技术,研究不仅在已知药物对的相互作用预测上取得了进展,还在涉及新药物的场景中进行了深入评估,进一步分析了生物医学网络中不同组件对DDI预测性能的贡献。这些研究为DDI预测提供了新的视角和方法,有望在药物开发和临床应用中发挥重要作用。
相关研究论文
  • 1
    Benchmarking Graph Learning for Drug-Drug Interaction Prediction清华大学电子工程系 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

NEPSE Open Data

首个尼泊尔证券交易所(NEPSE)的开源金融数据集,旨在提高尼泊尔资本市场的透明度、学习和创新。

github 收录

Huatuo-26M

Huatuo-26M是由香港中文大学(深圳)创建的大型中文医疗问答数据集,包含2600万个问答对。该数据集通过收集在线医疗咨询网站、医疗百科和医疗知识库的数据构建而成,旨在纪念古代名医华佗。数据集内容涵盖广泛,包括常见疾病、慢性病及复杂疾病等,问答形式贴近实际医疗诊断场景。Huatuo-26M不仅用于医疗研究,还旨在辅助患者和临床医生,通过提供丰富的医疗知识,支持模型在零样本学习和其他医疗问答数据集上的表现,以及作为预训练语料库提升现有预训练语言模型的性能。

arXiv 收录

HRRSD

HRRSD包含21,761张从Google Earth和Baidu Map获取的高分辨率(0.15-m至1.2-m)图像,涵盖55,740个对象实例和13个类别的遥感图像对象。数据集被分为训练、验证和测试三个子集,分别包含5401、5417和10943张图像。此外,还提供了数据集的统计信息和基准测试结果。

github 收录

CelebA

CelebFaces属性数据集 (CelebA) 是一个大型人脸属性数据集,包含200多个名人图像,每个图像有40个属性注释。此数据集中的图像涵盖了较大的姿势变化和背景杂波。CelebA的多样性大,数量大,注释丰富,包括10,177数量的身份,202,599数量的面部图像,以及5个地标位置,每个图像40个二进制属性注释。

OpenDataLab 收录

Chinese Multimodal Depression Corpus (CMDC)

CMDC包含半结构化访谈,旨在支持中国主要抑郁症障碍的筛查和评估。这些访谈作为创建自动AI工具的一部分收集,用于采访人员并识别MDD的视觉、声学和文本指示器。

github 收录