five

CultureMech

收藏
github2026-01-29 更新2026-01-30 收录
下载链接:
https://github.com/CultureBotAI/CultureMech
下载链接
链接失效反馈
官方服务:
资源简介:
一个生产就绪的知识库,包含来自10个主要国际存储库的10,595种培养基配方,具有LinkML模式验证、本体基础和基于浏览器的探索功能。

A production-ready knowledge base containing 10,595 culture medium recipes from 10 major international repositories, with LinkML schema validation, ontological foundations, and browser-based exploration functionalities.
创建时间:
2026-01-28
原始信息汇总

CultureMech 数据集概述

数据集基本信息

  • 数据集名称:CultureMech
  • 核心描述:一个包含来自10个主要国际资源库的10,595种培养基配方的、可用于生产的知识库,具备LinkML模式验证、本体论基础和基于浏览器的探索功能。
  • 许可证:CC0 1.0 Universal
  • 编程语言:Python 3.10+

数据覆盖范围与统计

总体概况

  • 总配方数:10,595

按类别划分

类别 配方数量 来源
细菌 10,072 MediaDive, TOGO, BacDive, ATCC, NBRC, KOMODO, MediaDB
藻类 242 UTEX, CCAP, SAG
真菌 119 MediaDive, TOGO
专用 99 KOMODO
古菌 63 MediaDive, TOGO

按来源划分

来源 配方数量 类型 描述
KOMODO 3,637 细菌 韩国微生物培养基数据库
MediaDive 3,327 多界 DSMZ综合收藏
TOGO Medium 2,917 多界 日本BRCs策划数据库
MediaDB 469 确定 化学确定培养基
CCAP 113 藻类 英国藻类及原生动物收藏
UTEX 99 藻类 德克萨斯大学藻类
SAG 30 藻类 德国藻类培养物收藏
NBRC 2 细菌 日本生物资源中心
BacDive 1 细菌 DSMZ培养条件数据库

培养基组成

培养基类型 配方数量 百分比
复合 8,399 79.3%
确定 2,196 20.7%

物理状态

状态 配方数量 百分比
液体 10,593 99.98%
固体(琼脂) 2 0.02%

数据质量指标

指标 百分比
含成分的配方 6,815 64.3%
基于CHEBI的成分 3,548 33.5%
平均成分/配方 15.7 -
LinkML已验证 10,595 100%

核心特性

  • 10,595个配方 - 来自10个权威来源、可用于生产的数据集。
  • 三层架构 - 清晰分离:原始数据 → 原始YAML → 标准化YAML。
  • LinkML模式验证 - 全面的数据质量强制执行。
  • 本体论基础 - 化学品使用CHEBI,生物体使用NCBITaxon。
  • 完整的来源追踪 - 完整的来源归属和策展历史。
  • 自动化流程 - 所有来源的获取器、转换器和导入器。
  • 浏览器界面 - 分面搜索和过滤。
  • 知识图谱导出 - 符合Biolink标准的KGX格式。
  • 全面的文档 - docs/目录中包含30多个指南。

数据来源

已整合的来源

整合了来自10个主要国际资源库的培养基配方。

计划扩展的来源

  • BacDive:约2,500+个额外的生物体特定培养条件。
  • ATCC:约900个美国典型培养物保藏中心培养基。
  • NBRC:约420个额外的NITE培养基配方。

藻类收藏(新增)

三个主要藻类培养物收藏已完全整合:

  • UTEX(德克萨斯州奥斯汀):99个配方 - 完整成分详情。
  • CCAP(苏格兰奥本):113个配方 - 元数据 + PDF参考文献。
  • SAG(德国哥廷根):30个配方 - 元数据 + PDF参考文献。 总计:242个藻类培养基配方。

项目结构

CultureMech/ ├── src/culturemech/ # Python包 ├── data/ # 三层数据架构 │ ├── raw/ # 第1层:源文件 │ ├── raw_yaml/ # 第2层:未标准化的YAML │ └── normalized_yaml/ # 第3层:已策展的配方 ├── docs/ # 综合文档 ├── app/ # 浏览器界面 ├── tests/ # 测试套件 ├── conf/ # 配置文件 ├── project.justfile # 构建自动化 └── pyproject.toml # Python项目配置

数据模型与格式

配方格式

配方以遵循LinkML模式的YAML文件存储。

LinkML模式

模式(src/culturemech/schema/culturemech.yaml)定义了关键类、枚举和本体绑定。

藻类特定扩展

为藻类培养条件添加了字段,如光照强度、光周期、温度范围等。

数据质量与验证

三层架构

确保从源数据到策展数据的可重现流程。

验证

提供完整的验证命令,包括模式验证和本体验证。

来源

每个配方都包含来源数据库归属、获取日期、导入日期、策展人、原始来源的交叉引用以及详细协议的PDF URL。

使用案例

  • 研究人员:查找特定生物体的培养基配方、比较不同培养物收藏的配方、访问详细制备步骤、通过变体关系发现替代方案。
  • 培养物收藏机构:标准化培养基配方格式、与其他收藏进行交叉引用、追踪来源和策展历史、导出知识图谱以进行整合。
  • 生物信息学家:通过Biolink模型进行KG查询、将生物体与培养条件关联、使用CHEBI本体分析成分、在结构化数据上构建应用程序。

相关资源

  • 培养物收藏:DSMZ MediaDive、TOGO Medium、ATCC、UTEX、CCAP、SAG等网站。
  • 本体论:CHEBI、NCBITaxon、UO(单位)。
  • 相关项目:KG-Hub、LinkML、Biolink Model。
搜集汇总
数据集介绍
main_image_url
构建方式
在微生物培养研究领域,标准化培养基配方的整合与共享对实验可重复性至关重要。CultureMech数据集通过三层架构系统化构建:首先从10个国际权威培养物保藏中心获取原始数据,包括DSMZ MediaDive、TOGO Medium及UTEX等藻类保藏库;随后通过专用转换器将异构数据统一为YAML格式;最终运用LinkML模式进行规范化处理,实现化学组分与CHEBI本体、生物分类与NCBITaxon本体的精确映射,确保数据在语义层面的互操作性。
特点
该数据集的核心特征体现在其规模与质量的双重优势。涵盖10,595个培养基配方,跨越细菌、藻类、真菌等多类生物,其中79.3%为复合培养基,20.7%为化学成分明确的规定培养基。每个配方均通过LinkML模式验证,33.5%的组分已实现CHEBI本体标注,平均每个配方包含15.7种成分。特别值得关注的是其扩展的藻类培养字段,完整记录了光强、光周期、温度范围等培养条件参数,为环境微生物学研究提供了精细化数据支持。
使用方法
研究人员可通过多种方式利用这一知识图谱。命令行工具支持配方统计、完整性验证及本体映射检查;本地浏览器界面提供多维度检索功能,用户可根据生物类别、培养基类型或特定成分进行筛选。对于生物信息学应用,数据集支持导出为Biolink兼容的KGX格式,便于整合至更广泛的知识图谱中。数据层级的清晰分离使得用户既能直接使用规范化配方,也能追溯至原始数据源,满足不同层次的研究需求。
背景与挑战
背景概述
微生物培养是生命科学研究的基石,然而培养配方的数据长期分散于各国际保藏中心,缺乏统一的结构化整合。CultureMech数据集由CultureBotAI团队于2026年创建,旨在构建一个全面、标准化的微生物培养基知识图谱。该数据集汇聚了来自DSMZ、TOGO、ATCC、UTEX等10个权威保藏中心的10,595个培养基配方,覆盖细菌、藻类、真菌、古菌等多个类群。其核心研究问题在于解决培养基数据异构、格式不一、难以计算利用的困境,通过LinkML模式验证与CHEBI、NCBITaxon本体映射,为微生物培养条件的标准化查询、比较分析与知识发现提供了高质量数据基础,显著推动了计算微生物学与培养组学的发展。
当前挑战
在微生物培养领域,系统解析与比较不同物种的培养基配方是一项复杂挑战,涉及成分的化学标准化、培养条件的多维度参数整合以及跨数据库的语义对齐。CultureMech在构建过程中,首要挑战在于处理多源数据的异构性,各保藏中心的数据格式、描述粒度与术语体系差异显著,需设计统一的三层架构实现从原始数据到规范化配方的转换。其次,数据质量提升面临瓶颈,目前仅33.5%的成分通过CHEBI本体准确锚定,大量复杂培养基的未定义成分(如酵母提取物)难以精确表征。此外,自动化流程需持续适配各数据源的更新机制与访问策略,以保障知识图谱的时效性与扩展性。
常用场景
经典使用场景
在微生物学与合成生物学领域,CultureMech数据集为研究人员提供了一个标准化的培养基配方知识库,其经典使用场景体现在系统化检索与比较不同微生物的培养基组成。例如,研究者可通过其浏览器界面进行多维度筛选,快速定位适用于特定细菌、藻类或真菌的培养基配方,并对比来自DSMZ、TOGO、UTEX等十个权威来源的配方差异,从而优化实验设计,提升微生物培养的成功率与可重复性。
衍生相关工作
基于CultureMech的标准化框架,已衍生出多项经典研究工作。例如,结合Biolink模型的知识图谱导出功能,支持了微生物培养条件与基因组、代谢组数据的关联分析;其LinkML架构也被拓展用于构建其他生物实验协议的知识库。此外,该数据集为自动化培养基设计工具提供了核心数据源,促进了人工智能在合成培养基优化中的应用,并启动了跨数据库培养基语义集成的新兴研究方向。
数据集最近研究
最新研究方向
在微生物培养领域,CultureMech数据集作为首个大规模、结构化的培养知识图谱,正推动研究范式从经验依赖转向数据驱动。其整合了10个国际权威资源库的万余条配方,并采用LinkML模式验证与CHEBI、NCBITaxon本体映射,为计算微生物学提供了标准化基础。当前前沿探索聚焦于利用该知识图谱训练机器学习模型,以预测未培养微生物的最佳培养基成分,辅助合成生物学中的底盘细胞优化培养。同时,结合藻类培养的光照、温度等扩展字段,该数据集正支撑微藻生物技术及碳中和相关研究,助力高通量培养条件智能设计与培养瓶颈的突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作