Synthyra/FDA-Approved-Drugs
收藏Hugging Face2026-05-07 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Synthyra/FDA-Approved-Drugs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个FDA批准药物的数据集,包含了从ChEMBL、DrugCentral和Thera-SAbDab等来源编译的药物信息。数据集分为三个部分:small_molecule(小分子药物)、single_chain(单链蛋白质药物)和multi_chain(多链生物药物)。每个部分都有相同的模式,包括药物的名称、链ID、链标签、序列、SMILES、SELFIES、分子量、靶点等信息。数据集还提供了药物的批准年份、是否撤回、适应症和作用机制等详细信息。
Compendium of FDA-approved drugs (including withdrawn) compiled from ChEMBL, DrugCentral, and Thera-SAbDab. The dataset is divided into three splits: small_molecule (small molecule drugs), single_chain (single-chain protein drugs), and multi_chain (multi-chain biologic drugs). All splits share the same schema, including drug name, chain ID, chain label, sequence, SMILES, SELFIES, molecular weight, targets, etc. The dataset also provides detailed information such as approval year, withdrawn status, indication, and mechanism of action.
提供机构:
Synthyra
搜集汇总
数据集介绍

构建方式
该数据集整合了美国食品药品监督管理局批准的药物信息,数据来源涵盖ChEMBL REST API、DrugCentral的FDA批准记录及Thera-SAbDab数据库。构建时,通过查询ChEMBL中最大临床阶段为四期且具有美国批准年份的条目,联合DrugCentral的批准表格,再辅以Thera-SAbDab中已获批治疗性抗体的可变区序列,形成全面的药物清单。数据集按分子类型分为三类:小分子、单链蛋白药物和多链生物制剂。对于多链生物制剂,采用ANARCI或abnumber工具提取抗体可变区,确保每条链的序列信息精确。最终通过统一脚本生成,并以chain_id作为唯一标识符,保障数据结构的完整性。
使用方法
该数据集适用于药物研发与生物信息学领域的多种任务。用户可直接通过chain_id访问具体药物条目,利用分子权重、化学结构表示进行物化性质预测。对于蛋白药物,序列信息可用于结构预测或亲和力计算。小分子与生物制剂的分类结构支持对比分析,例如评估不同药物类型的药代动力学差异。此外,结合靶点和适应症字段,可开展药物重定位研究。数据以Parquet格式存储,易于加载至Python环境,通过简单的字段过滤即可提取特定子集,服务于机器学习模型训练或统计分析。
背景与挑战
背景概述
FDA-Approved-Drugs数据集建立于近年来药物信息数字化浪潮中,由研究团队整合ChEMBL、DrugCentral及Thera-SAbDab三大权威药物数据库而成。该数据集聚焦于美国食品药品监督管理局(FDA)批准的药物(含已撤市药物),核心研究问题在于系统化收录药物的分子结构、靶点信息、批准年份及适应症等关键属性,为药物重定位、人工智能辅助药物发现及生物信息学分析提供高质量基准资源。其涵盖小分子药物、单链蛋白药物及多链生物制剂,已对计算药学领域产生重要影响,成为药物属性预测与跨模态分子表示学习的标准数据集之一。
当前挑战
该数据集所解决的领域挑战在于药物数据异构性:小分子需以SMILES、SELFIES等化学语言表示,而生物制剂需处理复杂的链结构(如抗体可变区)与序列信息,统一表征框架的构建面临巨大困难。构建过程中,多链药物(如双特异性抗体)的链分解依赖ANARCI/abnumber工具,可变区提取的准确率受限于算法与注释质量;同时,多源数据整合需处理命名实体歧义(如同义词映射)及属性一致性检验(如批准年份与撤市状态核对),确保2840个小分子与636个生物制剂实例的完整性与可靠性,构成数据处理的核心挑战。
常用场景
经典使用场景
FDA-Approved-Drugs数据集汇聚了经美国食品药品监督管理局(FDA)批准及部分已撤市的药物信息,融合ChEMBL、DrugCentral和Thera-SAbDab三大权威数据库,涵盖小分子、单链蛋白及多链生物制剂三大类。其经典使用场景在于为药物化学与生物信息学领域提供结构化的药物数据基准,研究者可依据分子结构(如SMILES、SELFIES表示)、生物学序列、靶点信息及适应症等字段,系统性地开展药物性质预测、分子相似性分析及药物重定位研究。数据集特有的链标识符设计,使得多链抗体药物的可变区(VH/VL)提取与比对变得精准高效,从而在抗体工程与免疫治疗领域展现出不可替代的价值。
解决学术问题
该数据集有力回应了药物研发中数据碎片化与标准不统一的核心困境。通过整合已批准药物的分子结构、理化性质、药理学靶点及审批年限等多维度信息,研究者得以开展大规模回顾性分析,探索药物属性与临床成功之间的潜在规律。例如,利用分子指纹与靶点关联揭示药物作用机制的共性模式,或基于撤市药物特征构建毒性预测模型,从而降低后期临床失败风险。数据集以开源形式提供标准化数据结构,极大地促进了可重复性研究的发展,并为人工智能驱动的药物发现范式提供了高质量的训练与验证素材,推动了计算药物化学领域的范式革新。
实际应用
在实际应用层面,FDA-Approved-Drugs数据集是加速药物研发全链条的关键资源。制药企业可利用小分子部分的结构数据快速筛选候选分子,规避已知毒性基团并优化药代动力学特性;抗体药物开发者则通过单链与多链部分精确分析已上市抗体的可变区序列与构架,指导新型治疗性抗体的设计。此外,数据集中的适应症与作用机制信息可辅助临床前研究的适应症选择与药物重定位策略,例如将已批准的抗肿瘤药物拓展至其他免疫相关疾病。基于该数据集的机器学习模型已被集成至药物筛选平台,显著提升了候选分子库的虚拟验证效率,缩短了从靶点发现到临床前候选化合物的研发周期。
数据集最近研究
最新研究方向
该数据集整合了ChEMBL、DrugCentral及Thera-SAbDab三大权威来源的FDA批准药物信息,覆盖小分子、单链蛋白及多链生物制剂三大类别,为药物重定位、人工智能辅助药物设计及抗体工程等前沿方向提供了结构化、跨模态的数据基石。近年来,随着深度学习在药物发现领域的渗透,该数据集所包含的分子序列(SMILES/SELFIES)、蛋白序列及靶点注释成为训练生成式模型与多模态预测模型的关键素材,尤其在反向翻译、结合亲和力预测及免疫原性评估等任务中具有独特价值。此外,其明确标注的上市年份与退市状态,为分析药物生命周期、监管趋势及临床试验失败模式提供了纵向视角,推动了药物数据驱动的产业级研究。
以上内容由遇见数据集搜集并总结生成



