five

DrugBank, TWOSIDES|药物相互作用数据集|药理学数据集

收藏
arXiv2024-10-29 更新2024-10-31 收录
药物相互作用
药理学
下载链接:
http://arxiv.org/abs/2410.18583v2
下载链接
链接失效反馈
资源简介:
DrugBank和TWOSIDES是用于药物-药物相互作用(DDI)预测的两个广泛使用的公共数据集。DrugBank包含86种药物间的药理相互作用,而TWOSIDES记录了药物间的副作用,保留了209种相互作用类型。这些数据集通过提取药物指纹和使用生物医学网络作为辅助信息,用于训练和评估DDI预测模型。数据集的应用领域主要集中在药理学和医疗保健中,旨在通过预测药物间的潜在相互作用来提高患者安全和治疗效果。
提供机构:
清华大学电子工程系, 香港科技大学(广州)数据科学与分析中心
创建时间:
2024-10-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
DrugBank, TWOSIDES数据集的构建基于广泛使用的公共DDI数据集。DrugBank数据集包含86种药物间的药理相互作用类型,每对药物对应一种相互作用类型。TWOSIDES数据集则记录了药物间的副作用,保留了209种DDI类型,每对药物可能存在多种相互作用。数据集通过RDKit提取药物指纹作为药物特征,并使用HetioNet和PrimeKG等生物医学网络作为侧信息,以增强DDI预测的性能。
特点
DrugBank, TWOSIDES数据集的主要特点在于其多样性和现实应用的相关性。DrugBank数据集提供了详细的药物相互作用类型,适用于多类DDI预测任务。TWOSIDES数据集则专注于药物副作用的记录,适用于多标签DDI预测任务。此外,数据集结合了药物指纹和生物医学网络信息,为DDI预测提供了丰富的侧信息,有助于提升预测模型的准确性和鲁棒性。
使用方法
使用DrugBank, TWOSIDES数据集时,研究者可以采用多种机器学习和图学习方法进行DDI预测。例如,基于特征的方法如多层感知器(MLP)和CSMDDI,基于嵌入的方法如ComplEx和MSTE,以及基于图神经网络(GNN)的方法如CompGCN和SkipGNN。这些方法可以通过统一评估框架进行比较,以确定在不同设置下的最佳表现。此外,数据集还支持对新药物和不同DDI类型的性能评估,帮助研究者更好地理解和优化DDI预测模型。
背景与挑战
背景概述
药物-药物相互作用(DDI)预测在药理学和医疗保健领域中扮演着至关重要的角色,旨在识别潜在的不良相互作用和有益的联合疗法。近年来,图学习方法被广泛引入以预测药物-药物相互作用。然而,现有方法的评估存在若干局限性,如缺乏统一的比较框架、在有意义的现实场景中缺乏评估,以及对辅助信息使用的探索不足。为了解决这些未解决的局限性,我们提出了基于图学习的DDI预测基准。首先,我们对现有方法进行了统一的评估比较。为了满足现实场景的需求,我们进一步评估了不同方法在新药物参与和不同DDI类型中的表现。通过这些工作,我们希望为DDI预测问题提供更多见解。
当前挑战
DDI预测面临的挑战包括:1) 缺乏统一的评估比较框架,导致现有方法的评估结果难以直接比较;2) 在现实场景中,特别是涉及新药物的场景中,现有方法的表现不佳;3) 对辅助信息(如生物医学网络)的利用不足,导致数据稀疏性问题,影响机器学习方法的性能。此外,现有方法在处理不同类型的DDI时表现不一致,特别是在长尾DDI类型的预测上存在显著困难。
常用场景
经典使用场景
在药物相互作用(DDI)预测领域,DrugBank和TWOSIDES数据集的经典应用场景主要集中在利用图学习方法来识别药物对之间的潜在不良相互作用或有益的联合疗法。这些数据集通过提供详细的药物特征和相互作用信息,使得研究人员能够构建和评估各种图神经网络(GNN)模型,从而在统一的框架下比较不同方法的性能。通过这种方式,研究者可以深入探索药物相互作用的复杂性,并为临床实践提供更为精确的预测工具。
实际应用
在实际应用中,DrugBank和TWOSIDES数据集被广泛用于开发和验证药物相互作用预测模型,这些模型在药物开发和临床实践中具有重要意义。例如,制药公司可以利用这些数据集来评估新药与现有药物的潜在相互作用,从而确保新药的安全性和有效性。此外,临床医生在制定治疗方案时,也可以参考这些预测模型,以避免可能的不良药物相互作用,优化治疗策略。
衍生相关工作
基于DrugBank和TWOSIDES数据集,许多相关的经典工作得以衍生和发展。例如,研究者们提出了多种图神经网络模型,如CompGCN、SkipGNN和Decagon,这些模型通过整合药物的分子结构和生物医学网络信息,显著提升了DDI预测的准确性。此外,还有一些研究专注于利用这些数据集进行新药的冷启动场景下的DDI预测,以及针对不同DDI类型的个性化预测模型开发。这些工作不仅丰富了DDI预测的理论基础,也为实际应用提供了强有力的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录