molport/In-stock-Database

Name: molport/In-stock-Database
Creator: molport
Published: 2025-12-11 15:41:22
License: 暂无描述

Hugging Face2025-12-11 更新2025-09-13 收录

下载链接：

https://hf-mirror.com/datasets/molport/In-stock-Database

下载链接

链接失效反馈

官方服务：

资源简介：

Molport库存数据库包含所有590万库存分子的SMILES字符串和Molport ID，这些分子包括可用于购买的筛选化合物和构建块。数据集按月更新，以反映最新的库存可用性。此外，Molport还提供了超过18个针对特定研究应用预过滤的化合物库。

The Molport In-Stock Database contains SMILES strings and Molport IDs for all 5.9 million in-stock molecules, which include screening compounds and building blocks available for purchase. The dataset is updated monthly to reflect the latest in-stock availability. Additionally, Molport provides more than 18 pre-filtered compound libraries tailored for specific research applications.

提供机构：

molport

搜集汇总

数据集介绍

构建方式

在化学信息学领域，构建高质量分子数据库是药物发现与材料研究的基础。Molport在库数据库的构建依托于Molport商业平台的实时库存信息，系统性地整合了全球供应商提供的可购买化合物。该数据集通过自动化流程每月更新，确保收录的590万分子均处于在售状态，涵盖筛选化合物与构建单元两大类别。每个条目均包含标准化的SMILES字符串、规范化SMILES表示及唯一的Molport标识符，形成结构严谨的化学信息索引体系。

特点

该数据集的核心特征体现在其动态性与专业性。作为商业级化合物数据库，它不仅提供基础的分子结构线性编码，更通过规范化处理保证化学表示的一致性。数据集覆盖的分子类型兼具广度与深度，既包含通用筛选化合物，也囊括针对特定靶点的专用构建单元。其每月更新的机制使数据始终反映市场最新供应状态，而18个预过滤子库的衍生设计，则为激酶研究、GPCR靶点探索等专业领域提供了即用型解决方案。

使用方法

研究人员可通过多种技术路径调用该数据集资源。直接文件下载适用于快速获取完整数据，FTP访问支持大规模批量处理与自动化同步，而Molport API则为集成到化学信息学工作流提供了程序化接口。在具体应用中，用户可基于SMILES字段进行分子相似性检索，利用规范表示开展虚拟筛选，或通过唯一标识符对接商业采购系统。非商业用途的研究者需遵循CC BY-NC 4.0许可协议，在注明来源的前提下将其用于内部研发与算法验证。

背景与挑战

背景概述

在药物发现与化学信息学领域，高质量且可获取的化合物数据库是推动虚拟筛选与分子设计研究的关键基础。Molport In-Stock Database由Molport公司创建并维护，作为一个持续更新的商业化合物资源库，收录了约590万种现货分子的SMILES字符串与唯一标识符，涵盖筛选化合物与构建模块两大类。该数据集自推出以来，通过月度更新机制，为全球科研机构与制药企业提供了即时可购的分子结构信息，显著加速了先导化合物发现与合成路线规划的研究进程，在化学生物学与计算药物设计中发挥了重要的基础设施作用。

当前挑战

该数据集致力于解决药物发现中化合物可获取性与结构多样性的核心挑战，即如何高效连接虚拟筛选结果与实物分子供应，以缩短实验验证周期。在构建过程中，面临的主要挑战包括：确保数百万分子SMILES表示的标准性与化学准确性，需克服不同供应商原始数据格式异构的问题；维持数据库动态更新以反映库存实时变化，要求建立稳定的自动化数据流水线；同时，在遵守非商业许可协议的前提下，平衡数据的广泛科研可用性与商业保护需求，亦是持续运营中的关键考量。

常用场景

经典使用场景

在药物发现与化学信息学领域，Molport In-Stock Database作为一座桥梁，连接了虚拟筛选与实验验证。该数据集收录了590万种可购买分子的SMILES字符串与唯一标识符，为研究人员提供了即时的化合物可用性信息。经典使用场景集中于高通量虚拟筛选，科学家们通过计算模型预测潜在活性分子后，可迅速在此数据库中确认其商业可得性，从而加速从理论设计到实物获取的流程，极大优化了先导化合物发现的效率。

实际应用

在实际工业研发中，Molport数据库已成为药物研发机构与化学供应商的关键工具。制药企业利用其进行苗头化合物筛选与采购，快速构建实体化合物库用于高通量生物测试。化学供应商则依据市场需求调整库存。此外，其提供的预过滤子库（如类药化合物库、激酶库等）使研究团队能针对特定靶点或疾病领域进行定向筛选，显著提升了早期药物发现项目的启动速度与针对性，实现了研发资源的高效配置。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，结合机器学习模型预测化合物性质与可购买性，开发出集成商业可得性评估的虚拟筛选平台。亦有研究利用其构建‘可购买化学空间’的映射与分析，探索了商业化合物库的结构多样性。这些工作不仅拓展了化学信息学与药物化学的交叉研究，还催生了新型工具与方法的开发，使得商业化合物数据能够更深度地赋能于自动化分子设计与合成路线规划等前沿方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集