five

abmelt-experiments

收藏
Hugging Face2026-02-15 更新2026-02-16 收录
下载链接:
https://huggingface.co/datasets/Praful932/abmelt-experiments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含抗体模拟实验的详细记录,涵盖了实验元数据、模拟参数和性能指标。数据集结构包括实验ID、抗体名称、时间戳、重链和轻链序列等基础信息,以及温度、模拟时间、力场、水模型、盐浓度等模拟环境参数。此外,还包含GPU使用情况、线程数、平衡时间等技术配置,以及多种结构稳定性指标如回转半径标准差、接触键标准差、均方根波动等计算结果。数据集共包含5个训练样本,总大小为3001字节,适用于抗体稳定性分析、分子动力学模拟验证等生物信息学研究。
创建时间:
2026-02-15
原始信息汇总

数据集概述

基本信息

  • 数据集名称: abmelt-experiments
  • 发布者: Praful932
  • 数据量: 数据集大小 3001 字节,包含 5 个样本。
  • 下载大小: 19258 字节。
  • 默认配置: 包含一个名为“default”的配置,数据文件路径为 data/train-*
  • 数据划分: 仅包含一个“train”划分。

数据结构与特征

数据集包含以下字段:

实验标识与抗体信息

  • experiment_id: 实验标识符 (字符串类型)
  • antibody_name: 抗体名称 (字符串类型)
  • timestamp: 时间戳 (字符串类型)
  • heavy_chain: 重链序列 (字符串类型)
  • light_chain: 轻链序列 (字符串类型)
  • tagg: 标签 (空值类型)
  • job_id: 任务ID (字符串类型)
  • status: 状态 (字符串类型)
  • error_message: 错误信息 (字符串类型)
  • description: 描述 (字符串类型)

模拟参数与条件

  • tm: 熔点温度 (浮点数类型)
  • tmon: 监控温度 (空值类型)
  • simulation_time: 模拟时间 (浮点数类型)
  • force_field: 力场 (字符串类型)
  • water_model: 水模型 (字符串类型)
  • salt_concentration: 盐浓度 (整数类型)
  • pH: pH值 (浮点数类型)
  • p_salt: 正离子盐 (字符串类型)
  • n_salt: 负离子盐 (字符串类型)
  • temperatures: 温度序列 (字符串类型)
  • equilibration_time: 平衡时间 (整数类型)
  • block_length: 块长度 (字符串类型)

计算配置

  • gpu_enabled: 是否启用GPU (布尔类型)
  • gpu_id: GPU ID (整数类型)
  • n_threads: 线程数 (整数类型)
  • core_surface_k: 核心表面参数k (整数类型)
  • compute_lambda: 是否计算lambda (布尔类型)
  • use_dummy_s2: 是否使用虚拟S2 (布尔类型)
  • cleanup_temp: 是否清理临时文件 (布尔类型)
  • cleanup_after: 清理时机 (字符串类型)
  • delete_order_params: 是否删除序参数 (布尔类型)
  • save_trajectories: 是否保存轨迹 (布尔类型)

实验过程与结果指标

  • duration_seconds: 持续时间(秒) (整数类型)
  • config_hash: 配置哈希值 (字符串类型)
  • gyr_cdrs_Rg_std_350: 350K时CDR区的回转半径标准差 (浮点数类型)
  • bonds_contacts_std_350: 350K时键合接触标准差 (浮点数类型)
  • rmsf_cdrl1_std_350: 350K时CDR L1区的均方根涨落标准差 (浮点数类型)
  • rmsf_cdrs_mu_400: 400K时CDR区的均方根涨落均值 (浮点数类型)
  • gyr_cdrs_Rg_std_400: 400K时CDR区的回转半径标准差 (浮点数类型)
  • all-temp_lamda_b=25_eq=20: 全温度下lambda_b=25, eq=20的数值 (浮点数类型)
  • all-temp-sasa_core_mean_k=20_eq=20: 全温度下SASA核心均值 k=20, eq=20 (浮点数类型)
  • all-temp-sasa_core_std_k=20_eq=20: 全温度下SASA核心标准差 k=20, eq=20 (浮点数类型)
  • r-lamda_b=2.5_eq=20: r-lambda_b=2.5, eq=20的数值 (浮点数类型)
搜集汇总
数据集介绍
main_image_url
构建方式
在抗体工程与生物物理模拟领域,abmelt-experiments数据集通过系统化的分子动力学模拟实验构建而成。该数据集整合了多种抗体序列与结构参数,包括重链与轻链序列、热力学稳定性指标如熔解温度(tm),以及模拟环境配置如力场、水模型、盐浓度和pH值。实验设计涵盖了从温度梯度模拟到结构特征提取的全过程,确保了数据在抗体稳定性预测中的科学严谨性。
特点
该数据集以其多维度的模拟参数和丰富的结构特征而著称,不仅记录了抗体的序列信息,还包含了详细的模拟环境设置与动态性能指标。特征字段如gyr_cdrs_Rg_std_350和rmsf_cdrl1_std_350反映了抗体互补决定区的结构波动性,而all-temp_lamda_b=25_eq=20等指标则量化了温度依赖的稳定性变化。这些特征共同构成了一个适用于机器学习模型训练的综合性抗体稳定性数据库。
使用方法
abmelt-experiments数据集主要服务于抗体稳定性预测与优化研究,用户可通过加载训练分割进行模型开发。典型应用包括利用序列与环境参数预测熔解温度,或分析结构特征与稳定性之间的关联。数据集的标准化格式便于直接集成到机器学习流程中,支持从特征工程到模型评估的全链条分析,为抗体设计与工程提供数据驱动的见解。
背景与挑战
背景概述
在计算生物学与药物发现领域,抗体热稳定性预测是优化治疗性抗体开发的关键环节。abmelt-experiments数据集由相关研究团队构建,专注于通过分子动力学模拟实验,系统记录抗体在不同物理化学条件下的热力学行为。该数据集整合了抗体重链与轻链序列、模拟参数及多种结构稳定性指标,旨在为机器学习模型提供高质量的训练数据,以精准预测抗体的熔解温度(Tm)及构象变化。其创建推动了抗体工程从经验导向向数据驱动范式的转变,为加速理性设计高稳定性抗体奠定了坚实基础。
当前挑战
该数据集致力于解决抗体热稳定性预测这一复杂生物物理问题,其挑战在于抗体结构的高度异质性与环境敏感性,使得从序列到稳定性的映射关系难以准确建模。构建过程中,挑战主要源于分子动力学模拟的高计算成本与参数设置的复杂性,需平衡模拟精度与计算效率;同时,数据标准化与多维度特征(如温度、力场、溶剂条件)的整合亦增加了数据清洗与一致性维护的难度,要求精细的元数据管理以确保实验的可重复性与可靠性。
常用场景
经典使用场景
在计算生物学领域,abmelt-experiments数据集为抗体热稳定性研究提供了关键支持。该数据集通过分子动力学模拟实验,记录了抗体在不同温度条件下的结构变化参数,如回转半径、接触键合和残基波动性等。研究人员利用这些高维数据,能够深入分析抗体可变区在热应力下的构象动力学,从而评估其热稳定性与结构完整性。这一过程为抗体工程中的理性设计奠定了数据基础,使得预测抗体在高温环境下的行为成为可能。
解决学术问题
该数据集有效解决了抗体热稳定性预测中的关键学术难题。传统实验方法耗时昂贵,难以系统探索温度对抗体结构的影响。abmelt-experiments通过标准化模拟流程,提供了大量可控条件下的结构动力学数据,使研究人员能够量化抗体折叠稳定性与温度的关系。这促进了计算模型的发展,用于预测抗体熔化温度(Tm)和识别易失稳区域,从而推动抗体热稳定性机制的分子层面理解,为抗体药物开发提供理论依据。
衍生相关工作
基于abmelt-experiments数据集,已衍生出多项经典研究工作。例如,研究人员开发了深度学习框架,利用数据集中的结构特征预测抗体热稳定性,相关模型在抗体工程领域得到广泛应用。同时,该数据促进了自由能计算方法的改进,用于更精确地估算抗体熔化温度。这些工作不仅扩展了计算抗体学的工具集,还推动了抗体稳定性预测的标准化与自动化,为后续大规模抗体筛选平台的建设提供了核心数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作