GraphFLA
收藏arXiv2025-10-28 更新2025-11-04 收录
下载链接:
https://github.com/COLA-Laboratory/GraphFLA
下载链接
链接失效反馈官方服务:
资源简介:
GraphFLA是一个Python框架,用于构建和分析来自突变数据的不同模态(例如,DNA、RNA、蛋白质等)中的适应性景观。GraphFLA计算了20个生物学相关的特征,这些特征表征了景观地形学的4个基本方面。通过将GraphFLA应用于来自ProteinGym、RNAGym和CIS-BP的超过5,300个景观,我们展示了其在解释和比较数十个适应性预测模型性能方面的实用性。此外,我们发布了155个完整的经验适应性景观,涵盖了各种模态中超过220万个序列。
GraphFLA is a Python framework for constructing and analyzing fitness landscapes across diverse modalities (e.g., DNA, RNA, proteins, etc.) derived from mutation data. GraphFLA computes 20 biologically relevant features that characterize four fundamental aspects of landscape topography. By applying GraphFLA to over 5,300 landscapes sourced from ProteinGym, RNAGym, and CIS-BP, we demonstrate its utility in interpreting and comparing the performance of dozens of fitness prediction models. Additionally, we release 155 complete empirical fitness landscapes encompassing over 2.2 million sequences across various modalities.
提供机构:
电子科技大学计算机科学与工程学院, 埃克塞特大学计算机科学系
创建时间:
2025-10-28
搜集汇总
数据集介绍

构建方式
在生物信息学领域,GraphFLA框架通过高效处理多模态生物序列数据(包括DNA、RNA和蛋白质)构建适应性景观。该数据集采用优化的邻域识别算法,将景观建模为有向图结构,其中节点代表基因型变体,边表示单步突变路径。通过直接生成单突变邻域而非传统全对比较,实现了近线性时间复杂度,可处理数百万变体的大规模景观。数据预处理模块自动标准化输入序列与适应度值,确保跨模态数据的兼容性与分析可靠性。
特点
GraphFLA数据集的核心特征在于其全面覆盖景观地形的20个量化指标,涵盖崎岖度、导航性、上位效应和中性四大维度。这些特征源自对1,673篇文献的系统性梳理,具有明确的生物学解释力,例如局部最优比例反映景观多峰性,适应度-距离相关性揭示进化路径的可导航性。数据集包含155个组合完整的经验景观,跨越DNA/RNA/蛋白质多种模态,其规模达220万序列变体,且通过大规模复制研究验证了特征计算的精确性与文献结论的高度一致性。
使用方法
该数据集通过标准化API与现有机器学习流程无缝集成,用户只需输入生物序列列表及其适应度值即可启动分析流程。其Python实现支持与ProteinGym、RNAGym等主流基准的互操作,可直接加载预构建景观或从原始数据动态生成。研究人员可调用calculate_features()方法获取20维地形特征向量,用于解释模型性能差异或指导定向进化实验。框架还提供合成景观生成功能,支持通过NK模型等参数化方法构建具有可调地形特性的模拟数据集。
背景与挑战
背景概述
GraphFLA数据集由Mingyu Huang等人于2025年提出,旨在解决生物适应性预测模型评估中景观地形信息缺失的问题。该数据集构建于进化生物学中适应性景观的经典理论基础上,通过整合DNA、RNA和蛋白质等多模态突变数据,系统计算了20个关键地形特征,涵盖崎岖性、可导航性、上位性和中性四个核心维度。其创新性在于将景观拓扑分析与机器学习模型性能解读相结合,为ProteinGym、RNAGym等主流基准提供了生物学意义明确的元特征,显著提升了模型比较与归因分析的科学深度。
当前挑战
该数据集面临双重挑战:在领域问题层面,需克服传统基准仅依赖平均分数而忽视任务异质性的局限,通过量化景观拓扑特征解释模型性能波动;在构建过程中,需处理多模态生物序列数据的异构性,开发高效算法以支持百万级突变体的景观构建,同时确保特征计算在噪声数据、稀疏采样等非理想条件下的鲁棒性。
常用场景
经典使用场景
在生物适应性预测研究领域,GraphFLA数据集通过构建包含5300多个经验性适应性景观的基准库,为机器学习模型性能评估提供了标准化测试平台。该数据集覆盖DNA、RNA和蛋白质等多种生物模态,支持对VenusREM、ProSST、Evo2等前沿模型的横向比较,通过计算20种景观地形特征揭示模型在不同拓扑结构景观中的预测能力差异。
解决学术问题
GraphFLA有效解决了适应性预测模型评估中缺乏地形特征指导的学术难题。通过量化景观的崎岖度、导航性、上位性和中性度四大核心特征,该数据集揭示了模型性能差异的内在机制:例如在互惠符号上位性较高的景观中,VenusREM表现出更强的预测能力,而监督模型Kermut在低导航性景观中优势显著。这种特征驱动的分析方法突破了传统仅依赖平均分数的评估局限。
衍生相关工作
基于GraphFLA衍生的经典工作包括蛋白质适应性预测基准ProteinGym的景观特征增强版本,以及RNA结构预测基准RNAGym的地形分析扩展。在方法学层面,研究者开发了景观感知的模型选择框架,通过实时分析任务特征自动推荐最优预测模型。此外,该数据集还催生了多尺度景观分析工具,支持从分子序列到微生物群落等多层次生物系统的适应性景观研究。
以上内容由遇见数据集搜集并总结生成



