LSD_AmpC_Liu_2025

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/IrwinLab/LSD_AmpC_Liu_2025

下载链接

链接失效反馈

官方服务：

资源简介：

docking_results数据集包含化合物的SMILES和zincid，以及训练集的大小和示例数量。invitro_results数据集包含ZINC ID、Catalog ID和DOCK score等生物学数据，以及训练集的大小和示例数量。poses_top500k数据集包含分子的名称、SMILES、多种属性和排名信息，以及训练集的大小和示例数量。

创建时间：

2025-04-17

原始信息汇总

数据集概述

基本信息

数据集名称: LSD_AmpC_Liu_2025
数据集地址: https://huggingface.co/datasets/IrwinLab/LSD_AmpC_Liu_2025

数据集配置

1. docking_results

特征:
- smiles: 字符串类型
- zincid: 字符串类型
- score: 浮点型
数据量:
- 训练集: 1,568,863,695 个样本
- 文件大小: 122,548,586,012 字节
- 下载大小: 52,313,006,119 字节
数据文件路径: docking_results/train-*

2. invitro_results

特征:
- ZINC ID: 字符串类型
- Catalog ID: 字符串类型
- DOCK score (kcal/mol): 浮点型
- Global rank: 整型
- Tc to knowns: 浮点型
- Ki (uM): 字符串类型
- SMILES: 字符串类型
- Picking method: 字符串类型
数据量:
- 训练集: 1,521 个样本
- 文件大小: 195,304 字节
- 下载大小: 94,613 字节
数据文件路径: invitro_results/train-*

3. poses_top500k

特征:
- Name: 字符串类型
- Protonation: 字符串类型
- SMILES: 字符串类型
- Long_Name: 字符串类型
- FlexRecCode: 浮点型
- Number: 浮点型
- Ligand_Source_File: 字符串类型
- Rank: 浮点型
- Setnum: 浮点型
- Matchnum: 浮点型
- OXR: 字符串类型
- OXS: 字符串类型
- Cloud: 浮点型
- Electrostatic: 浮点型
- Gist: 浮点型
- Van_der_Waals: 浮点型
- Ligand_Polar_Desolv: 浮点型
- Ligand_Apolar_Desolv: 浮点型
- Total_Strain: 浮点型
- Max_Strain: 浮点型
- Receptor_Desolvation: 浮点型
- Receptor_Hydrophobic: 浮点型
- Total_Energy: 浮点型
- Ligand_Charge: 浮点型
- Arbitrary: 浮点型
- Ligand_Energy: 浮点型
- mol_block: 字符串类型
数据量:
- 训练集: 500,000 个样本
- 文件大小: 2,017,556,247 字节
- 下载大小: 861,006,439 字节
数据文件路径: poses_top500k/train-*

搜集汇总

数据集介绍

构建方式

LSD_AmpC_Liu_2025数据集通过分子对接技术和体外实验相结合的方式构建，涵盖了超过15亿个分子对接结果和1521个体外实验验证数据。数据集采用多配置结构组织，包含docking_results、invitro_results和poses_top500k三个子集，分别记录分子对接评分、体外活性数据和前50万对接构象的详细能量参数。数据采集过程严格遵循计算化学实验规范，确保每个分子特征的准确性和可追溯性。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，三个子集分别对应不同的研究需求。docking_results适用于开发新型分子对接算法，invitro_results可用于构建QSAR预测模型，poses_top500k则适合分子动力学模拟和结合位点分析。每个子集均采用标准数据框格式存储，支持pandas等工具直接处理。对于特定研究目标，建议先筛选Global rank靠前的分子进行重点分析。

背景与挑战

背景概述

LSD_AmpC_Liu_2025数据集由研究团队于2025年构建，专注于药物发现领域的分子对接与体外活性测试。该数据集整合了大规模虚拟筛选结果与实验验证数据，旨在解决AmpC β-内酰胺酶抑制剂开发中的分子识别难题。其核心价值在于建立了计算化学评分与生物活性之间的映射关系，为计算机辅助药物设计领域提供了关键基准。数据集包含15亿余条分子对接记录及1500余条体外测试数据，通过多维度特征描述配体-受体相互作用机制，显著提升了耐药菌靶点药物开发的效率。

当前挑战

该数据集面临双重挑战：在科学层面，需解决分子对接评分函数与实验活性数据间的非线性关联问题，现有能量计算模型难以准确预测复杂溶剂化效应下的结合自由能。在技术层面，数据异构性处理构成主要障碍，包括对接软件输出格式标准化、体外测试中Ki值单位统一化，以及海量构象数据的存储优化。特别值得注意的是，柔性对接产生的500,000个分子构象涉及多维能量项整合，对特征工程的完备性提出了极高要求。

常用场景

经典使用场景

在药物发现领域，LSD_AmpC_Liu_2025数据集为分子对接研究提供了丰富的实验数据。该数据集通过记录大量小分子与AmpC β-内酰胺酶的相互作用信息，成为评估虚拟筛选算法性能的黄金标准。研究人员可以基于对接分数和体外活性数据，快速验证分子对接程序的准确性。

解决学术问题

该数据集有效解决了药物发现中分子对接评分函数优化的关键问题。通过提供包含1.5亿余次对接实验的详实数据，研究人员能够深入分析分子间相互作用能各分量的贡献度。特别是对于β-内酰胺酶抑制剂的开发，数据集中的Ki值和Tc相似性指标为构效关系研究提供了重要参考。

实际应用

在实际药物研发中，该数据集被广泛用于先导化合物优化阶段。制药企业通过分析Top50万构象的多种能量参数，可快速识别具有优化潜力的分子骨架。数据集包含的质子化状态和分子应变数据，尤其有助于解决类药性分子在结合口袋中的构象稳定性问题。

数据集最近研究