gschottlender/LigQ_2
收藏Hugging Face2026-04-21 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/gschottlender/LigQ_2
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
提供机构:
gschottlender
搜集汇总
数据集介绍

构建方式
在药物发现与分子模拟领域,配体与受体的结合亲和力预测是计算化学的核心挑战之一。LigQ_2数据集以量子化学计算为基石,通过系统收集并标准化处理了小分子配体与蛋白质靶标的相互作用数据,构建了一套涵盖多种结合模式的非共价相互作用数据集。该数据集整合了来自公开晶体结构数据库的复合物信息,采用密度泛函理论(DFT)与分子力学(MM)结合的混合方法进行能量计算,所有数据经过严格的几何优化与能量筛选,确保了相互作用描述的物理准确性。
特点
LigQ_2数据集的核心亮点在于其高质量的量子化学标注与多维相互作用表征。每个数据条目不仅包含经典的结合亲和力数值,还细化了氢键、疏水接触、π-π堆积等关键非共价作用类型的能量分解。这种精细化的标签设计使得数据集尤其适合深度学习模型对分子识别机制进行深入剖析。此外,数据集在化学空间多样性上表现优异,覆盖了数百种蛋白靶标与数千种配体框架,为训练鲁棒性强的亲和力预测模型提供了坚实的基础。
使用方法
LigQ_2数据集的应用场景聚焦于基于结构的药物设计与机器学习模型训练。研究者可直接将其作为回归任务的标准数据集,用于训练预测结合自由能的神经网络或梯度提升模型。数据以标准化SMILES表示配体结构,并提供三维构象坐标与蛋白口袋描述文件,便于直接输入图神经网络或等变架构。建议将数据集划分为训练、验证与测试集时,依据蛋白靶标序列相似性进行分层采样,以避免数据泄漏并评估模型的泛化能力。
背景与挑战
背景概述
LigQ_2 数据集由研究团队于近期创建,旨在推动分子对接与虚拟筛选领域的基准测试发展。该数据集聚焦于配体-受体结合亲和力的量化评估,核心研究问题在于如何构建高质量、多样化的结合位点样本,以验证和优化计算化学方法。通过整合多来源实验数据并加以严格清洗,LigQ_2 为药物发现中的打分函数开发、构象采样及自由能预测提供了标准化测试平台,在促进计算化学方法复现性与可比性方面展现出重要影响力。
当前挑战
LigQ_2 数据集所解决的领域核心挑战为配体-受体结合亲和力预测的准确性与泛化性,现有方法常因训练数据偏置而表现不佳。构建过程中,团队面临多源实验数据一致性、非结合位点干扰及构象多样性不足等难题,需通过精确的结构对齐、负样本平衡及动态增强策略来缓解。此外,数据标注的噪声问题与计算资源的高需求也为质量控制带来显著压力,迫使在构建中兼顾规模与可靠性,以确保数据集在交叉验证中的鲁棒性。
常用场景
经典使用场景
LigQ_2数据集在分子对接与药物发现领域中,常用于评估和改进配体结合构象的预测算法。该数据集整合了高质量的小分子与蛋白质复合物结构,为研究非共价相互作用的精确建模提供了标准化基准。研究人员通过比对预测构象与实验结构之间的均方根偏差,系统评估打分函数或采样策略的优劣,从而推动计算化学方法的优化与验证。
衍生相关工作
基于LigQ_2数据集,衍生出了一系列经典工作,如针对柔性对接算法的基准测试、基于图神经网络的打分函数开发以及结合自由能预测方法的验证。这些研究不仅改进了AutoDock、Glide等主流对接软件的精度,还催生了特定于配体构象生成的深度学习框架,进一步丰富了计算药物设计的方法学体系。
数据集最近研究
最新研究方向
LigQ_2数据集作为基于MIT开源协议的蛋白质-配体结合亲和力预测数据集,近期研究聚焦于利用深度学习模型探索分子间相互作用的关键特征。前沿方向包括结合图神经网络与注意力机制来捕捉三维结构中的空间依赖关系,以及结合物理化学描述符增强模型可解释性。该数据集在药物虚拟筛选和先导化合物优化中展现出显著潜力,尤其在应对新靶点和高通量数据稀疏性挑战时,推动了从静态对接评分向动态结合自由能预测的范式转变。其开放许可特性促进了跨学科协作,加速了AI驱动药物发现从理论验证到实用工具的落地进程。
以上内容由遇见数据集搜集并总结生成



