m-boltz-submissions
收藏Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/hugging-science/m-boltz-submissions
下载链接
链接失效反馈官方服务:
资源简介:
M-Boltz黑客松提交数据集包含了三个配置:Allosteric-Orthosteric、Antibody-Antigen和final。Allosteric-Orthosteric配置提供了蛋白质结构相关的特征,如RMSD值和结构数量。Antibody-Antigen配置提供了抗体-抗原交互的成功率特征。final配置包含了项目提交的相关信息,如存储库URL和提交SHA值。每个配置都有对应的训练数据集。
创建时间:
2025-10-19
原始信息汇总
M-Boltz Hackathon Submissions 数据集概述
数据集基本信息
- 数据集名称:M-Boltz Hackathon Submissions
- 配置数量:3个独立配置
配置详情
1. Allosteric–Orthosteric 配置
数据特征:
- group_name (字符串类型)
- rmsd_top1_all (浮点数类型)
- rmsd_top1_allosteric (浮点数类型)
- rmsd_top1_orthosteric (浮点数类型)
- rmsd_top5_all (浮点数类型)
- structures_under_2a (整数类型)
数据统计:
- 训练集样本数量:5
- 数据集大小:224字节
- 下载大小:3265字节
2. Antibody–Antigen 配置
数据特征:
- group_name (字符串类型)
- successful (整数类型)
- high (整数类型)
- medium (整数类型)
- acceptable (整数类型)
数据统计:
- 训练集样本数量:2
- 数据集大小:76字节
- 下载大小:2556字节
3. final 配置
数据特征:
- group_name (字符串类型)
- repository_url (字符串类型)
- commit_sha (字符串类型)
- challenge_type (字符串类型)
- description_link (字符串类型)
数据统计:
- 训练集样本数量:1
- 数据集大小:100字节
- 下载大小:2830字节
搜集汇总
数据集介绍

构建方式
在计算生物学领域,M-Boltz Hackathon Submissions数据集源自一场专注于分子对接与蛋白质相互作用预测的黑客松竞赛。该数据集通过收集参赛团队在三个关键任务中的提交结果构建而成,涵盖变构-正构位点识别、抗体-抗原结合评估以及综合挑战项目。每个配置均以结构化方式整理,包含团队名称、结构相似性指标和结合成功等级等字段,确保了数据的系统性与可追溯性。
特点
该数据集的特点体现在其多维度评估框架上,不仅包含传统结构对齐指标如RMSD值,还引入了分层结合成功率统计。不同配置分别针对特异性生物分子相互作用设计,例如变构-正构配置侧重局部结构精度,而抗体-抗原配置则强调结合界面质量分级。数据集规模虽小但结构严谨,每个样本均附带完整的元数据描述,为分子对接算法验证提供了精准的基准平台。
使用方法
研究人员可通过HuggingFace平台直接加载指定配置数据,利用标准数据加载器解析结构化特征。典型应用场景包括:基于RMSD指标评估蛋白质复合物预测精度,通过结合成功分级验证抗体设计算法,或利用提交记录追踪方法演进轨迹。数据集支持跨配置对比分析,用户可分别调用不同子集以针对特定相互作用类型进行模型训练与验证。
背景与挑战
背景概述
M-Boltz Hackathon Submissions数据集源于计算结构生物学领域的前沿探索,聚焦于蛋白质相互作用与药物设计的交叉研究。该数据集由M-Boltz黑客松活动参与者集体构建,通过记录多组团队在特定生物分子识别任务中的算法提交结果,系统性地评估蛋白质-配体结合构象预测的准确性。其核心研究问题在于量化计算模型对变构位点与正构位点的空间结构匹配能力,为开发新型靶向疗法提供数据支撑。这一开放科学实践不仅加速了AI驱动药物发现的方法迭代,更推动了计算生物学与临床医学的深度融合。
当前挑战
该数据集需应对生物分子构象预测中的多重挑战:在领域层面,变构-正构双位点结合模式的动态平衡难以通过传统力场参数准确描述,而抗体-抗原界面的高特异性识别又要求模型兼具几何精度与物化合理性。构建过程中,参与者需克服分子动力学轨迹数据的异构性,将非结构化模拟输出转化为标准化的RMSD指标与结合成功率统计。此外,多团队提交结果的元数据整合面临格式统一性与可复现性保障的双重压力,需通过版本控制与描述文档的刚性约束维持数据生态的完整性。
常用场景
经典使用场景
在计算结构生物学领域,m-boltz-submissions数据集作为M-Boltz黑客松竞赛的核心成果,专注于蛋白质相互作用预测的评估。该数据集通过记录不同团队在变构-正构位点识别及抗体-抗原结合任务中的结构预测精度,为分子对接算法提供了标准化测试平台。其RMSD指标和结构分类数据能够系统评估预测模型在三维空间构象还原中的表现,成为优化蛋白质设计工具的重要基准。
解决学术问题
该数据集有效解决了蛋白质动态构象预测中的关键科学问题,特别是变构调节机制与特异性结合位点的量化表征难题。通过提供多组别实验数据,研究者能够深入探索蛋白质功能位点的几何特征与结合亲和力的关联规律,推动了对变构通信网络和免疫识别机制的理论建模,为结构生物信息学领域提供了可验证的计算框架。
衍生相关工作
该数据集催生了系列创新性研究工作,包括基于深度学习的蛋白质复合物结构预测模型开发,以及多尺度分子动力学模拟方法的优化。多个研究团队利用其提供的基准测试框架,相继提出了改进的图神经网络架构和几何深度学习算法,这些衍生成果已逐步应用于蛋白质设计平台和开源药物发现工具链的构建中。
以上内容由遇见数据集搜集并总结生成



