five

Universal Binary Principle Geometric Chemical Informatics Datasets

收藏
github2025-09-19 更新2025-09-23 收录
下载链接:
https://github.com/DigitalEuan/Geometric-Chemical-Informatics
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含三个核心数据集:1)无机材料科学研究数据集,涵盖495种纯无机过渡金属化合物(二元和三元),包含原始属性数据、89个传统无机特征和44个新颖的UBP特定特征;2)药物发现研究数据集(激酶抑制剂),包含4,073种激酶抑制剂的规范SMILES字符串和10个激酶靶点的pIC50值;3)药物发现研究数据集(多巴胺D2受体),包含1,000种靶向多巴胺D2受体的独特化合物的结构和报告的pKi值。

This repository contains three core datasets: 1) Inorganic Materials Science Research Dataset: covering 495 pure inorganic transition metal compounds (binary and ternary), which includes raw property data, 89 traditional inorganic features, and 44 novel UBP-specific features; 2) Drug Discovery Research Dataset (Kinase Inhibitors): containing canonical SMILES strings of 4,073 kinase inhibitors and pIC50 values for 10 kinase targets; 3) Drug Discovery Research Dataset (Dopamine D2 Receptor): including the structures of 1,000 unique compounds targeting the dopamine D2 receptor and their reported pKi values.
创建时间:
2025-09-19
原始信息汇总

数据集概述

基本信息

  • 数据集名称:The Universal Binary Principle (UBP) in Geometric Chemical Informatics
  • 创建者:Euan R A Craig (DigitalEuan), New Zealand
  • 描述:包含支持药物发现和无机材料科学研究的完整数据集、特征工程流程、UBP编码算法和预测建模脚本。

研究内容

1. 无机材料科学研究

  • 目标化合物:495种纯无机过渡金属化合物(二元和三元)
  • 数据来源:Materials Project数据库(通过REST API)
  • 包含数据
    • 原始属性数据
    • 89个传统无机特征(基础、晶体学、电子、拓扑)
    • 44个新型UBP特定特征(NRCI、领域分配、UBP能量计算)
  • 代码内容:UBP编码算法、周期性邻域地图构建脚本、指标预测的随机森林模型

2. 药物发现研究(激酶抑制剂)

  • 目标化合物:4,073种激酶抑制剂
  • 数据来源:ChEMBL数据库
  • 包含数据:10个激酶靶点的规范SMILES字符串和pIC₅₀值
  • 代码内容:Morgan指纹和分子描述符计算脚本、UMAP映射、使用几何特征达到R²=0.83的梯度提升回归器流程

3. 药物发现研究(多巴胺D2受体)

  • 目标化合物:1,000种靶向多巴胺D2受体的独特化合物
  • 数据来源:ChEMBL数据库
  • 包含数据:化合物结构和报告的pKi值
  • 代码内容:基线QSAR流程(随机森林、梯度提升)、特征工程脚本、UBP分子编码算法、UBP增强的几何假设生成器

验证结果

  • 材料一致性:495种过渡金属化合物中79.8%达到高一致性目标(NRCI ≥ 0.999999)
  • 假设生成:UBP增强分析生成15个高质量几何假设,平均NRCI得分为0.7496
  • 相关性验证:UBP能量方程与分子生物活性之间存在强相关性

技术依赖

  • 降维工具:UMAP
  • 机器学习库:scikit-learn
  • 化学信息学工具:RDKit、Mordred
  • 材料信息学工具:pymatgen
  • 数据源:ChEMBL数据库、Materials Project REST API

致谢资源

  • Materials Project团队
  • ChEMBL数据库
  • UMAP、RDKit、Mordred、scikit-learn、pymatgen开发团队
搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,Universal Binary Principle Geometric Chemical Informatics Datasets的构建采用了多源数据整合与统一编码策略。数据集涵盖无机材料科学与药物发现两大分支,其中无机材料部分基于Materials Project数据库的REST API获取495种过渡金属化合物的原始属性数据,并衍生出89种传统特征与44种UBP特异性特征;药物发现部分则从ChEMBL数据库提取激酶抑制剂和多巴胺D2受体配体的结构信息与生物活性数据。通过自定义的UBP编码算法,将化学属性映射至几何信息一致性框架内,形成结构化的特征矩阵。
特点
该数据集的核心特点在于其基于Universal Binary Principle的几何信息一致性建模。无机材料数据通过NRCI指标量化材料的结构连贯性,79.8%的样本达到高一致性阈值;药物数据则通过几何假设生成框架,将分子结构映射为可计算的拓扑空间,其假设验证平均NRCI得分达0.7496。数据集同时包含传统特征与UBP衍生特征的双重表征,并通过UMAP算法构建了周期邻域图与化学空间几何映射,实现了跨尺度化学实体的统一描述。
使用方法
使用本数据集时,研究者可依托配套的代码库实现端到端分析。无机材料研究可通过随机森林模型预测材料性能指标,并利用UMAP脚本重构周期邻域映射;药物发现研究则提供基于梯度提升回归器的QSAR管道,支持从分子指纹计算到几何假设生成的全流程。依赖环境包括scikit-learn、RDKit、Mordred等开源工具,数据与算法的耦合设计确保了研究结果的可复现性。用户需通过ChEMBL与Materials Project的官方接口获取原始数据,并遵循UBP编码规范进行特征工程。
背景与挑战
背景概述
Universal Binary Principle Geometric Chemical Informatics Datasets由新西兰研究员Euan R A Craig创建,旨在将通用二进制原理(UBP)框架应用于化学信息学领域。该数据集整合了来自Materials Project和ChEMBL数据库的495种无机过渡金属化合物及5073种药物分子数据,核心研究问题聚焦于通过几何与信息一致性原则重构化学实体的计算表征。UBP框架将现实建模为基于确定性切换的计算系统,显著推动了药物发现与无机材料科学的多尺度预测建模,为化学信息学提供了全新的理论基础与方法论支撑。
当前挑战
该数据集致力于解决化学信息学中几何特征与生物活性关联建模的复杂性挑战,尤其在跨尺度材料属性预测及多靶点药物分子活性优化方面存在显著难点。构建过程中需克服异构数据源(如晶体结构与分子SMILES)的统一编码难题,开发基于UBP原理的44维新型特征工程管道,并实现传统特征与UBP能量方程等衍生参数的协同整合。此外,依赖UMAP降维与随机森林等算法验证几何假设的有效性,对计算资源与算法鲁棒性提出了较高要求。
常用场景
经典使用场景
在化学信息学领域,Universal Binary Principle Geometric Chemical Informatics Datasets 的经典使用场景主要体现在药物发现和无机材料科学的几何建模中。该数据集通过统一二进制原理框架,将化合物和材料的物理化学性质编码为几何特征,支持机器学习模型进行活性预测和结构分析。研究人员利用其提供的UMAP降维脚本和随机森林算法,能够高效探索化学空间,识别具有高生物活性或特定功能的分子,为高通量筛选和虚拟筛选提供可靠基础。
衍生相关工作
基于该数据集衍生的经典工作包括UBP编码算法的扩展应用,如将三元化合物纳入材料一致性分析框架,以及开发结合Triad框架的分子描述符计算工具。相关研究进一步整合了 Mordred 描述符库与梯度提升回归器,推动了多目标药物活性预测模型的发展。这些工作深化了几何信息在化学空间可视化中的理论基石,并为材料基因组计划提供了可复现的计算范式。
数据集最近研究
最新研究方向
在化学信息学领域,Universal Binary Principle (UBP) 数据集正推动几何计算框架的前沿探索。该数据集通过统一二元原理,将无机材料和药物分子建模为确定性切换系统,实现了高达79.8%的材料相干性验证。热点研究集中于UBP能量方程与生物活性的强关联性分析,以及周期性邻域映射在药物发现中的几何假说生成。这些进展不仅深化了对化学空间几何结构的理解,还为多尺度材料设计与靶向药物开发提供了新范式,显著提升了预测模型的准确性与可解释性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作