LOBSTER

github2024-11-18 更新2024-12-12 收录

下载链接：

https://github.com/rareylab/LOBSTER

下载链接

链接失效反馈

官方服务：

资源简介：

LOBSTER（Ligand Overlays from Binding SiTe Ensemble Representatives）是一个用于评估小分子叠加工具的配体叠加数据集。

LOBSTER（Ligand Overlays from Binding SiTe Ensemble Representatives）是一个用于评估小分子叠加工具的配体叠合数据集。

创建时间：

2024-11-14

原始信息汇总

LOBSTER 数据集概述

描述

LOBSTER（"Ligand Overlays from Binding SiTe Ensemble Representatives"）是一个用于评估小分子叠加工具的配体叠加数据集。该数据集可在 Zenodo 上下载。

数据集生成流程

数据集的生成流程包括以下步骤：

1. 配体和结构准备

使用 1_reduce_ligands_main_filter.py 从结构和配体数据的“主表”中提取符合过滤标准的配体。
使用 2_reduce_ligands_duplicates.py 去除重复配体，保留具有最佳 EDIAm 的配体。
使用 3_reduce_ligands_fetch_activities_for_table.py 从 PDB 获取活性数据并注释到主表中，移除 LE < 0.3 的配体。
使用 4_remove_ligands.py 准备配体并计算埋藏度。
使用 5_calculate_buriedness.py 计算配体的埋藏度。
使用 6_reduce_ligands_buriedness.py 根据埋藏度因子过滤主表，并生成用于 SIENA 数据库创建的 PDB ID 文件。

2. SIENA 搜索

使用 7_generate_siena_db.py 生成 SIENA 数据库。
使用 8_execute_siena.py 执行 SIENA 搜索，并进行结果后处理。

3. 最终 LOBSTER 创建

使用 9_unique_ligand_extractor.py 去除重复配体，保留具有最低 backbone RMSD 的配体。
使用 10_clustering 对集合进行聚类，并生成代表性集合。

后处理：对和子集

使用 11_create_pairs.py 创建 LOBSTER 目录中的所有对数据集。
使用 12_create_subsets.py 生成 LOBSTER 目录中的子集数据集。

评估

1. 数据集统计

使用 csv_stats.py 生成关于分子、对和集合的统计数据。
使用 size_stats.py 生成指定目录中的小提琴图。
使用 physchem_stats.py 生成关于 cLogP、分子量、可旋转键和氢键供体/受体的图表。
使用 tanimoto_boxplots.py 生成 ECFP4 和 Gobbi 指纹 Tanimoto 相似性的箱线图。
使用 diversity_stats.py 生成关于中位 MACCS 指纹相似性和 Scaffold AUC 的统计数据。
使用 plot_diversity_stats.py 绘制 diversity_stats.py 生成的结果。
使用 generate_timestamps.py 生成包含每个 PDB ID 的 Revdat 的 CSV 文件。
使用 plot_timestamps.py 绘制之前存储的 CSV 中的时间戳。
使用 comparison_to_drugs_histograms.py 绘制 LOBSTER 化合物与 FDA 橙皮书中已知口服药物的分子性质比较直方图。

2. 关于蛋白质多样性的研究

使用 retrieve_chain_uniprot_ids.py 为 LOBSTER 数据集中的所有分子创建包含集群、PDB ID、配体 hetcode、链、Uniprot ID、PfamID 和 Pfam 名称的 CSV 文件。
使用 retrieve_uniprot_az.py 为 AstraZeneca Overlays 创建相同的 CSV 文件。
使用 check_and_compare_uniprots.py 生成关于 PFam 和 Uniprot ID 的图表和信息。
使用 analyze_double_uniprots.py 创建包含所有具有双重 Uniprot ID 的蛋白质和分析失败的蛋白质的 CSV 文件。

Python 依赖项

Python 3.10.11
pandas=1.4.1
rdkit=2022.0 9.1
progressbar=4.0.0
argparse=1.1
json=2.0.9
logging=0.5.1.2
sklearn=1.1.3
matplotlib=3.5.1
plotnine=0.10.1
seaborn=0.11.2
matplotlib-venn=1.0.0
requests=2.28.1
re=2.2.1
scipy=1.8.0

开源许可证信息

所有工作流和分析文件均根据 BSD New 许可证授权（详见 LICENSE 文件）。

搜集汇总

数据集介绍

构建方式

LOBSTER数据集的构建过程严谨而系统，始于结构与配体数据的整合。通过一系列脚本，首先从主表中筛选符合特定标准的配体，去除重复项并基于EDIAm值进行优化。随后，利用NAOMI工具计算配体的buriedness，进一步过滤数据。接着，使用SIENA工具进行配体口袋的搜索，确保结果中的配体均通过前期筛选。最后，通过聚类算法提取代表性配体，形成最终的LOBSTER数据集。

特点

LOBSTER数据集的显著特点在于其高度筛选的配体集合和多样化的分析工具。该数据集不仅包含了经过严格筛选的配体，还提供了多种统计和可视化工具，如Shape Tversky Index的统计、分子性质的分析以及多样性统计等。此外，LOBSTER还支持对配体集合进行进一步的子集划分和成对分析，为研究者提供了丰富的数据处理选项。

使用方法

LOBSTER数据集的使用方法灵活多样。用户可以通过提供的脚本生成和分析数据集，首先配置config.json文件以确保路径正确。随后，按照脚本编号顺序执行，从配体和结构的准备到SIENA搜索，再到最终数据集的生成。此外，LOBSTER还提供了多种后处理和统计分析工具，用户可以根据需求生成不同的子集和统计图表，深入探索配体的多样性和性质。

背景与挑战

背景概述

LOBSTER（Ligand Overlays from Binding SiTe Ensemble Representatives）数据集是由德国汉堡大学ZBH生物信息学中心的研究团队开发，旨在评估小分子叠加工具的性能。该数据集的创建始于对蛋白质-配体复合物中配体叠加问题的深入研究，核心研究问题是如何通过配体叠加工具准确预测和评估配体的空间结构相似性。LOBSTER数据集的构建过程涉及多个复杂的生物信息学工具和算法，如NAOMI ChemBio Suite和SIENA，这些工具的应用使得数据集在配体叠加领域具有重要的研究价值。该数据集的发布不仅为相关领域的研究人员提供了一个标准化的评估平台，还推动了小分子药物设计与开发的技术进步。

当前挑战

LOBSTER数据集在构建过程中面临多项技术挑战。首先，配体和结构数据的预处理需要精确的过滤和去重算法，以确保数据集的质量和一致性。其次，SIENA搜索过程中，如何高效地生成和处理配体数据库，以及如何确保搜索结果的准确性和完整性，都是亟待解决的问题。此外，数据集的后期处理和统计分析，如配体对的生成、子集的划分以及多样性统计，均需要复杂的算法支持和计算资源。这些挑战不仅涉及技术层面的优化，还要求研究团队在数据处理和分析过程中保持高度的精确性和一致性，以确保数据集的可靠性和实用性。

常用场景

经典使用场景

LOBSTER数据集主要用于评估小分子叠加工具的性能，特别是在药物设计领域中，通过比较不同分子在蛋白质结合口袋中的叠加效果，来验证和优化分子对接算法。该数据集通过系统地筛选和准备配体，结合SIENA搜索算法，生成了一系列具有代表性的配体叠加集合，为研究者提供了一个标准化的基准来测试和比较不同的分子叠加工具。

实际应用

LOBSTER数据集在药物发现和设计中具有广泛的应用前景。首先，它可用于优化分子对接算法，提高虚拟筛选的准确性，从而加速新药候选分子的发现。其次，LOBSTER数据集还可用于训练和验证机器学习模型，特别是在预测分子结合亲和力和选择性方面。此外，该数据集还可用于研究蛋白质-配体相互作用的多样性，为药物设计提供更深入的分子机制理解。

衍生相关工作

LOBSTER数据集的发布催生了一系列相关的研究工作，特别是在分子对接算法和药物设计领域。例如，基于LOBSTER的配体叠加集合，研究者开发了新的分子对接算法，显著提高了对接的准确性和效率。此外，LOBSTER还启发了对蛋白质-配体相互作用多样性的深入研究，推动了药物设计中分子机制的理解和应用。这些衍生工作不仅丰富了药物设计领域的研究内容，还为未来的药物发现提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集