five

glmp-biological-processes

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/garywelz/glmp-biological-processes
下载链接
链接失效反馈
官方服务:
资源简介:
GLMP生物学过程数据集包含732个生物学过程,用于基因逻辑建模项目的计算模式分析。该数据集使用模式审核表作为基准,避免在批处理文件和文章中重复计算出现的过程。数据集包括了核心数据文件和元数据文件,支持计算生物学研究、生物系统模式分析、教育用途以及可重复研究的验证。
创建时间:
2025-09-05
原始信息汇总

GLMP Biological Processes Dataset 概述

数据集基本信息

  • 名称:GLMP Biological Processes Dataset
  • 版本:1
  • 最后更新日期:2025-09-04
  • 许可证:CC BY 4.0
  • 语言:英语
  • 标签:生物学、流程图、计算生物学、模式分析、美人鱼、研究
  • 任务类别:文本分类、目标检测
  • 规模类别:1K<n<10K

数据集内容

  • 总过程数:732个生物过程
  • 核心数据文件
    • process_inventory.csv:包含732个生物过程的清洁清单(无重复)
    • pattern_audit_table.csv:包含所有732个过程的交互式审计表
    • simple_process_list.html:按界组织的简化过程列表
    • process_summary.txt:所有过程的文本摘要
  • 元数据文件
    • dataset_info.json:数据集的结化元数据
    • README.md:说明文件

计算模式分析

分析的计算模式包括:

  • OR门:替代通路激活机制
  • AND门:多信号需求系统
  • NOT门:抑制性调控机制
  • 反馈回路:正反馈和负反馈系统
  • 状态机:发育和细胞周期过程
  • 决策树:免疫应答和适应系统

数据质量

  • 基线:模式审计表(避免重复计数)
  • 范围:仅批处理文件中的过程(非文章/索引页)
  • 去重:移除Hugging Face文章中的重复项
  • 锚点:HTML文件中特定过程的直接链接

用途

数据集设计用于:

  • 计算生物学研究
  • 生物系统中的模式分析
  • 教育目的
  • 可重复研究验证

访问方式

  • 数据集查看器:https://huggingface.co/datasets/garywelz/glmp-biological-processes
  • 直接CSV访问:https://huggingface.co/datasets/garywelz/glmp-biological-processes/resolve/main/pattern_audit_table.csv

引用

如需使用此数据集,请引用: Welz, G. (2025). Process Visualization in Biology: A Programming Framework for Systematic Analysis of Complex Systems. [Journal TBD]

联系方式

如有问题,请联系:gwelz@jjay.cuny.edu

相关资源

  • 交互式空间:https://huggingface.co/spaces/garywelz/glmp
  • 源代码:https://github.com/garywelz/glmp
  • 论文:Process Visualization in Biology: A Programming Framework for Systematic Analysis of Complex Systems
搜集汇总
数据集介绍
main_image_url
构建方式
在计算生物学领域,GLMP生物过程数据集通过系统化方法整合了732个生物过程,采用模式审计表作为基准以避免重复计数问题。数据来源于批处理文件而非文章索引页,经过严格去重处理,每个过程均配有流程图链接和计算模式标注,确保了数据的一致性和可追溯性。
特点
该数据集涵盖六类核心计算模式,包括或门、与门、非门等逻辑门结构,以及反馈循环和状态机等复杂系统模型。每个生物过程均通过Mermaid流程图可视化,并附带布尔值标注的模式分析字段,支持研究者从多层次解析生物系统的计算特性,为模式识别研究提供结构化基础。
使用方法
研究者可通过HuggingFace平台直接访问交互式数据集查看器,利用排序和过滤功能快速定位目标过程。点击流程图链接可即时可视化生物过程逻辑结构,结合布尔标注字段可批量筛选特定计算模式。数据集支持CSV格式离线分析,适用于计算生物学建模、教育演示及可重复研究验证等场景。
背景与挑战
背景概述
基因逻辑建模项目(GLMP)生物过程数据集由Gary Welz教授及其团队于2025年创建,旨在系统分析生物系统中的计算模式。该数据集收录了732个经过严格去重的生物过程,涵盖从分子调控到细胞决策的多层次机制,为计算生物学领域提供了首个基于流程图模式分析的结构化资源。其核心研究聚焦于识别生物过程中的逻辑门结构与动态系统行为,通过Mermaid流程图可视化技术,显著推进了复杂生物系统的可计算性研究,对系统生物学和合成生物学的发展具有重要推动作用。
当前挑战
该数据集致力于解决生物过程计算模式识别的核心挑战,包括异质性生物数据的标准化表达、多层次调控逻辑的抽象建模,以及动态系统行为的静态可视化转换。在构建过程中,研究团队需克服生物过程描述的双重计数风险,通过模式审计表实现数据整合的精确性;同时需处理非结构化生物学文本到结构化逻辑模式的转换,确保OR/AND/NOT门、反馈环路及状态机等计算元素的准确标注,这一过程涉及跨学科知识的深度融合与质量控制。
常用场景
经典使用场景
在计算生物学研究领域,GLMP生物过程数据集为系统分析复杂生物系统提供了标准化框架。研究者通过其包含的732个生物过程及其计算模式分析,能够深入探索基因调控网络中的逻辑门机制,如OR门、AND门和NOT门的激活与抑制模式。该数据集支持对反馈环路、状态机和决策树等计算模式的识别与分类,为理解生物过程的动态行为奠定基础。
衍生相关工作
围绕GLMP数据集已衍生出多项经典研究工作,包括基于Mermaid流程图的生物过程可视化工具开发,以及结合机器学习算法的模式自动识别系统。这些工作扩展了数据集在系统生物学中的应用范围,例如构建基因调控网络的动态模型,以及开发用于免疫响应预测的计算框架,显著推动了生物计算模式的标准化与自动化分析进程。
数据集最近研究
最新研究方向
在计算生物学领域,GLMP生物过程数据集正推动着系统生物学模式识别研究的前沿发展。该数据集通过对732个生物过程进行逻辑门电路(OR/AND/NOT)、反馈环路和状态机等计算模式标注,为复杂生物系统的可解释性分析提供了结构化基础。当前研究热点集中于利用深度学习模型自动识别生物流程图中的计算模式,并与基因调控网络建模相结合,显著提升了多信号通路协同机制的解析效率。这一研究方向不仅加速了合成生物学中的电路设计优化,更为疾病机制研究和药物靶点预测提供了新的 computational framework,标志着生物系统形式化分析范式的重大转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作