KM-Medallion

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/Milad96/KM-Medallion

下载链接

链接失效反馈

官方服务：

资源简介：

K. marxianus数字双胞胎引擎，版本7.2.0。这是一个与kluyveromyces marxianus（一种酵母）相关的生物学和基因组学数据集，包含bronze_raw_archive、silver_semantic_nlp、gold_chemo_metabolic、gold_knowledge_graph和platinum_ai_ready五种配置的数据，每种配置都有训练集、验证集和测试集。数据集规模在1K到10K之间。

创建时间：

2025-11-20

原始信息汇总

KM-Medallion 数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 文本生成、特征提取
领域标签: 生物学、基因组学、马克斯克鲁维酵母
数据规模: 1K<n<10K
语言: 英语

数据集配置

bronze_raw_archive

数据文件:
- 训练集: data/bronze_raw_archive/train.parquet
- 验证集: data/bronze_raw_archive/validation.parquet
- 测试集: data/bronze_raw_archive/test.parquet
字段数量: 20
层级: 青铜级

silver_semantic_nlp

数据文件:
- 训练集: data/silver_semantic_nlp/train.parquet
- 验证集: data/silver_semantic_nlp/validation.parquet
- 测试集: data/silver_semantic_nlp/test.parquet
字段数量: 16
层级: 白银级

gold_chemo_metabolic

数据文件:
- 训练集: data/gold_chemo_metabolic/train.parquet
- 验证集: data/gold_chemo_metabolic/validation.parquet
- 测试集: data/gold_chemo_metabolic/test.parquet
字段数量: 16
层级: 黄金级

gold_knowledge_graph

数据文件:
- 训练集: data/gold_knowledge_graph/train.parquet
- 验证集: data/gold_knowledge_graph/validation.parquet
- 测试集: data/gold_knowledge_graph/test.parquet
字段数量: 11
层级: 黄金级

platinum_ai_ready

数据文件:
- 训练集: data/platinum_ai_ready/train.parquet
- 验证集: data/platinum_ai_ready/validation.parquet
- 测试集: data/platinum_ai_ready/test.parquet
字段数量: 11
层级: 铂金级

使用示例

python from datasets import load_dataset ds = load_dataset("Milad96/KM-Medallion", "platinum_ai_ready", split="train")

联系方式

邮箱: dr.m.shaghaghy@gmail.com
仓库地址: https://huggingface.co/datasets/Milad96/KM-Medallion

引用格式

bibtex @dataset{km_digital_twin, author = {Shaghaghy, Milad}, title = {K. marxianus Digital Twin Engine}, year = {2025}, version = {7.2.0}, url = {https://huggingface.co/datasets/Milad96/KM-Medallion} }

搜集汇总

数据集介绍

构建方式

在基因组学研究领域，KM-Medallion数据集采用分层架构构建，涵盖从原始数据到人工智能就绪数据的完整流程。该数据集包含五个层级：青铜层存储原始档案数据，白银层整合语义自然语言处理结果，黄金层分为化学代谢与知识图谱两个子集，铂金层则优化为可直接用于机器学习模型的格式。每个层级均提供训练集、验证集和测试集的标准化划分，数据以Parquet文件格式存储，确保高效访问与处理。

使用方法

研究人员可通过Hugging Face数据集库直接加载KM-Medallion数据集，特别推荐使用铂金层配置以获得最佳的人工智能模型训练效果。加载时需指定数据集名称、配置名称和所需的数据分割，例如加载训练集时可调用load_dataset函数并设定split参数为train。该数据集支持文本生成和特征提取两类核心任务，其标准化格式确保了与主流机器学习框架的兼容性，为酵母基因组数字化研究提供了即用型数据支持。

背景与挑战

背景概述

随着合成生物学与计算生物学的深度融合，微生物数字孪生模型成为推动工业生物技术革新的关键工具。KM-Medallion数据集由Milad Shaghaghy博士于2025年构建，聚焦马克斯克鲁维酵母（Kluyveromyces marxianus）这一具有高效生物转化能力的非模式酵母。该数据集通过多层级架构整合基因组学、代谢网络与语义分析数据，旨在构建该微生物的数字孪生体，为理性菌株设计提供可计算框架，显著加速了工业微生物从基因型到表型的解析效率。

当前挑战

微生物数字孪生领域面临多维异构数据融合的复杂性挑战，需解决代谢通路动态模拟与基因组尺度模型校准的精度问题。在数据集构建过程中，原始生物学数据的非结构化特征要求开发复杂的自然语言处理流程，而化学代谢数据的标准化则需克服命名实体识别与本体论映射的障碍。知识图谱构建阶段需协调多源数据库的语义差异，最终实现从青铜级原始档案到铂金级AI就绪数据的无损转化。

常用场景

经典使用场景

在合成生物学领域，KM-Medallion数据集通过其多层级架构为克鲁维酵母菌株的代谢网络建模提供了核心支持。该数据集整合了从原始基因组数据到语义化知识图谱的结构化信息，使研究人员能够系统分析菌株的化学代谢特性与基因表达关联。其铂金级AI就绪格式特别适用于训练深度学习模型，模拟微生物在工业发酵环境中的动态行为。

解决学术问题

该数据集有效解决了非模式微生物研究中数据碎片化的关键问题。通过构建标准化的数字孪生引擎，研究者能够突破传统实验的时空限制，精准预测克鲁维酵母的代谢通路调控机制。这种数据整合方式显著提升了微生物表型预测的准确性，为合成生物学领域的定量研究建立了新范式。

实际应用

在工业生物技术实践中，该数据集支撑着高效细胞工厂的智能化设计。制药企业利用其知识图谱层优化抗生素前体合成路径，食品工业则通过代谢模型改进乳清废弃物转化工艺。这些应用显著降低了生物制造过程的试错成本，推动了可持续生物经济的发展。

数据集最近研究