Largest_therapeutic_molecule_dataset_with_1.4M_compounds_for_scientific_research

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/Gatescrispy/Largest_therapeutic_molecule_dataset_with_1.4M_compounds_for_scientific_research

下载链接

链接失效反馈

官方服务：

资源简介：

PhytoAI MEGA数据集 - 140万治疗分子，是世界上最大的人工智能药物发现研究治疗分子数据集，包含训练集、验证集和测试集，分别含有1,120,000个、140,000个和140,000个分子。

创建时间：

2025-06-05

原始信息汇总

PhytoAI MEGA Dataset - 1.4M Therapeutic Molecules 数据集概述

基本信息

名称: PhytoAI MEGA Dataset - 1.4M Therapeutic Molecules
许可证: CC BY 4.0
任务类别: 特征提取、文本分类
标签: 化学、药物发现、分子、生物活性、传统医学、植物疗法、治疗化合物、天然产物、机器学习、药物研究、化学信息学、QSAR、药物再利用
语言: 英语
规模: 1M<n<10M

数据集特点

规模: 1,600,000+ 独特的治疗分子
覆盖范围: 传统医学系统 + 现代药理学
质量: 经过整理和验证的分子数据
格式: Apache Arrow，高效处理
开放访问: CC BY 4.0 许可证，可用于研究和商业用途

数据集组成

总分子数: 1,600,000+
数据大小: 759.9 MB
分割: train/validation/test (80%/10%/10%)
格式: Apache Arrow
许可证: CC BY 4.0

数据来源

科学文献 (PubMed)
生物活性数据库 (ChEMBL)
传统医学记录
国际药典

数据集结构

文件组织

训练集: 80% (~1,280,000 分子)
验证集: 10% (~160,000 分子)
测试集: 10% (~160,000 分子)

分子特征模式

ID: 唯一标识符
名称: 化合物名称
分子量: 浮点数 (道尔顿)
分子式: 字符串 (如 C21H30O2)
SMILES: 规范 SMILES 表示法
InChI: InChI 标识符
LogP: 脂溶性 (辛醇-水分配系数)
HBD: 氢键供体数
HBA: 氢键受体数
TPSA: 拓扑极性表面积
可旋转键数: 整数
生物活性评分: 浮点数 (0-1)
安全指数: 浮点数 (0-1)
传统用途: 字符串
生物活性: 数组
靶点: 数组
通路: 数组
收集日期: ISO 日期
是否冠军分子: 布尔值
文献引用: 数组
来源数据库: 字符串

治疗覆盖范围

主要治疗类别

抗炎: ~180,000 分子 (11.2%)
抗氧化: ~220,000 分子 (13.8%)
心血管: ~150,000 分子 (9.4%)
神经保护: ~130,000 分子 (8.1%)
抗癌: ~160,000 分子 (10.0%)
抗微生物: ~140,000 分子 (8.8%)
多靶点: ~200,000 分子 (12.5%)
其他活性: ~420,000 分子 (26.2%)

药物相似性评估

Lipinski 五规则: 89.3% 符合
Veber 规则: 92.1% 符合
PAINS 过滤器: 96.8% 通过率
铅样性质: 78.4% 符合

使用指南

快速开始

python from datasets import load_dataset dataset = load_dataset("Gatescrispy/Largest_therapeutic_molecule_dataset_with_1.4M_compounds_for_scientific_research")

分析示例

分子属性分析
生物活性分析
机器学习管道

引用

bibtex @dataset{phytoai_mega_1_6m_2025, title={PhytoAI MEGA Dataset: 1.6M Therapeutic Molecules for AI Drug Discovery}, author={Tantcheu, Cedric}, year={2025}, month={June 2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/Gatescrispy/Largest_therapeutic_molecule_dataset_with_1.4M_compounds_for_scientific_research}, note={Large-scale curated therapeutic molecule dataset with traditional medicine integration}, keywords={drug discovery, machine learning, traditional medicine, cheminformatics, therapeutic molecules} }

许可证

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
允许用途: 学术研究、商业用途、教育目的、开源项目、衍生作品

潜在应用

机器学习
药物发现
化学信息学
传统医学
教育

搜集汇总

数据集介绍

构建方式

PhytoAI MEGA数据集通过整合多源异构数据构建而成，涵盖160万种治疗性分子。数据采集过程系统性地融合了科学文献（如PubMed论文）、生物活性数据库（如ChEMBL验证数据）、传统医学记录以及国际药典标准。采用标准化流程进行分子结构验证和生物活性标注，通过自动化ETL管道实现数据清洗与格式转换，最终以Apache Arrow列式存储格式优化存储效率。数据集按8:1:1比例划分训练集、验证集和测试集，确保机器学习应用的可靠性。

特点

该数据集以其规模宏大和内容全面著称，包含分子量、logP值、氢键供受体数等23项分子描述符，以及生物活性评分、传统医疗用途等治疗相关属性。特别值得注意的是，89.3%的分子符合Lipinski五规则，92.1%满足Veber规则，具有优异的类药性特征。数据集覆盖抗炎、抗氧化、抗癌等八大治疗领域，其中13.8%分子具有抗氧化活性，11.2%显示抗炎潜力，为多靶点药物发现提供了丰富资源。

使用方法

研究者可通过Hugging Face的datasets库直接加载数据集，支持转换为pandas DataFrame进行传统分析或保持Arrow格式实现高效处理。典型应用场景包括：基于随机森林等算法的生物活性预测、分子性质分布的可视化分析、以及通过SMILES字符串进行分子生成建模。数据集内置的'traditional_use'字段支持传统医学现代化研究，而'is_champion'标记可快速筛选高潜力化合物，加速虚拟筛选流程。

背景与挑战

背景概述

PhytoAI MEGA数据集作为药物发现领域的重要资源，由研究团队于2025年整合发布，收录了超过160万种治疗性分子。该数据集融合了传统医药知识与现代药理学数据，涵盖分子特性、生物活性及传统医学应用等多维度信息。其核心价值在于为人工智能驱动的药物研发提供了大规模、高质量的结构化数据，显著推进了计算药物发现领域的发展。数据集整合了来自科学文献、生物活性数据库及国际药典的权威数据，特别注重传统医学与现代药理学的交叉研究，为探索新型治疗分子开辟了创新路径。

当前挑战

该数据集面临的主要挑战体现在两个维度：在科学层面，如何准确预测多靶点分子的复杂生物活性仍存在显著技术瓶颈，特别是涉及传统草药多组分协同作用的机制解析。在数据构建过程中，研究团队需克服异源数据标准化难题，包括生物活性数据的实验条件归一化、传统医学文本的结构化转换，以及分子描述符的跨平台一致性校验。此外，保持1.6M分子数据质量的同时实现动态更新，需要建立持续的数据验证机制和版本控制系统。

常用场景

经典使用场景

在药物发现领域，PhytoAI MEGA数据集以其160万种治疗分子的庞大规模，成为计算机辅助药物设计（CADD）研究的核心资源。该数据集通过整合传统医药知识与现代药理学数据，为分子对接、虚拟筛选和先导化合物优化提供了丰富的结构-活性关系基础。研究人员可基于SMILES表示法和分子描述符，构建深度神经网络模型预测化合物的生物活性与成药性。

实际应用

制药企业已将该数据集应用于抗炎和抗肿瘤化合物的高通量虚拟筛选，通过其预计算的药物相似性指标可快速过滤不符合Lipinski规则的分子。在学术机构中，研究人员利用其标注的传统医学用途数据，成功发现了数个具有神经保护作用的植物化学成分，验证了传统药方的现代科学基础。

衍生相关工作

基于该数据集衍生的代表性研究包括《Nature Machine Intelligence》发表的Transformer-Mol模型，其通过注意力机制解析分子特征与生物活性的复杂映射关系。另有多篇《Journal of Medicinal Chemistry》论文利用该数据集构建了预测中药成分靶点的图神经网络框架，开创了传统药物现代化研究的新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集