CultureMech
收藏CultureMech 数据集概述
数据集基本信息
- 数据集名称:CultureMech
- 核心描述:一个包含来自10个主要国际资源库的10,595种培养基配方的、可用于生产的知识库,具备LinkML模式验证、本体论基础和基于浏览器的探索功能。
- 许可证:CC0 1.0 Universal
- 编程语言:Python 3.10+
数据覆盖范围与统计
总体概况
- 总配方数:10,595
按类别划分
| 类别 | 配方数量 | 来源 |
|---|---|---|
| 细菌 | 10,072 | MediaDive, TOGO, BacDive, ATCC, NBRC, KOMODO, MediaDB |
| 藻类 | 242 | UTEX, CCAP, SAG |
| 真菌 | 119 | MediaDive, TOGO |
| 专用 | 99 | KOMODO |
| 古菌 | 63 | MediaDive, TOGO |
按来源划分
| 来源 | 配方数量 | 类型 | 描述 |
|---|---|---|---|
| KOMODO | 3,637 | 细菌 | 韩国微生物培养基数据库 |
| MediaDive | 3,327 | 多界 | DSMZ综合收藏 |
| TOGO Medium | 2,917 | 多界 | 日本BRCs策划数据库 |
| MediaDB | 469 | 确定 | 化学确定培养基 |
| CCAP | 113 | 藻类 | 英国藻类及原生动物收藏 |
| UTEX | 99 | 藻类 | 德克萨斯大学藻类 |
| SAG | 30 | 藻类 | 德国藻类培养物收藏 |
| NBRC | 2 | 细菌 | 日本生物资源中心 |
| BacDive | 1 | 细菌 | DSMZ培养条件数据库 |
培养基组成
| 培养基类型 | 配方数量 | 百分比 |
|---|---|---|
| 复合 | 8,399 | 79.3% |
| 确定 | 2,196 | 20.7% |
物理状态
| 状态 | 配方数量 | 百分比 |
|---|---|---|
| 液体 | 10,593 | 99.98% |
| 固体(琼脂) | 2 | 0.02% |
数据质量指标
| 指标 | 值 | 百分比 |
|---|---|---|
| 含成分的配方 | 6,815 | 64.3% |
| 基于CHEBI的成分 | 3,548 | 33.5% |
| 平均成分/配方 | 15.7 | - |
| LinkML已验证 | 10,595 | 100% |
核心特性
- 10,595个配方 - 来自10个权威来源、可用于生产的数据集。
- 三层架构 - 清晰分离:原始数据 → 原始YAML → 标准化YAML。
- LinkML模式验证 - 全面的数据质量强制执行。
- 本体论基础 - 化学品使用CHEBI,生物体使用NCBITaxon。
- 完整的来源追踪 - 完整的来源归属和策展历史。
- 自动化流程 - 所有来源的获取器、转换器和导入器。
- 浏览器界面 - 分面搜索和过滤。
- 知识图谱导出 - 符合Biolink标准的KGX格式。
- 全面的文档 -
docs/目录中包含30多个指南。
数据来源
已整合的来源
整合了来自10个主要国际资源库的培养基配方。
计划扩展的来源
- BacDive:约2,500+个额外的生物体特定培养条件。
- ATCC:约900个美国典型培养物保藏中心培养基。
- NBRC:约420个额外的NITE培养基配方。
藻类收藏(新增)
三个主要藻类培养物收藏已完全整合:
- UTEX(德克萨斯州奥斯汀):99个配方 - 完整成分详情。
- CCAP(苏格兰奥本):113个配方 - 元数据 + PDF参考文献。
- SAG(德国哥廷根):30个配方 - 元数据 + PDF参考文献。 总计:242个藻类培养基配方。
项目结构
CultureMech/ ├── src/culturemech/ # Python包 ├── data/ # 三层数据架构 │ ├── raw/ # 第1层:源文件 │ ├── raw_yaml/ # 第2层:未标准化的YAML │ └── normalized_yaml/ # 第3层:已策展的配方 ├── docs/ # 综合文档 ├── app/ # 浏览器界面 ├── tests/ # 测试套件 ├── conf/ # 配置文件 ├── project.justfile # 构建自动化 └── pyproject.toml # Python项目配置
数据模型与格式
配方格式
配方以遵循LinkML模式的YAML文件存储。
LinkML模式
模式(src/culturemech/schema/culturemech.yaml)定义了关键类、枚举和本体绑定。
藻类特定扩展
为藻类培养条件添加了字段,如光照强度、光周期、温度范围等。
数据质量与验证
三层架构
确保从源数据到策展数据的可重现流程。
验证
提供完整的验证命令,包括模式验证和本体验证。
来源
每个配方都包含来源数据库归属、获取日期、导入日期、策展人、原始来源的交叉引用以及详细协议的PDF URL。
使用案例
- 研究人员:查找特定生物体的培养基配方、比较不同培养物收藏的配方、访问详细制备步骤、通过变体关系发现替代方案。
- 培养物收藏机构:标准化培养基配方格式、与其他收藏进行交叉引用、追踪来源和策展历史、导出知识图谱以进行整合。
- 生物信息学家:通过Biolink模型进行KG查询、将生物体与培养条件关联、使用CHEBI本体分析成分、在结构化数据上构建应用程序。
相关资源
- 培养物收藏:DSMZ MediaDive、TOGO Medium、ATCC、UTEX、CCAP、SAG等网站。
- 本体论:CHEBI、NCBITaxon、UO(单位)。
- 相关项目:KG-Hub、LinkML、Biolink Model。




