KM-Medallion
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/Milad96/KM-Medallion
下载链接
链接失效反馈官方服务:
资源简介:
K. marxianus数字双胞胎引擎,版本7.2.0。这是一个与kluyveromyces marxianus(一种酵母)相关的生物学和基因组学数据集,包含bronze_raw_archive、silver_semantic_nlp、gold_chemo_metabolic、gold_knowledge_graph和platinum_ai_ready五种配置的数据,每种配置都有训练集、验证集和测试集。数据集规模在1K到10K之间。
创建时间:
2025-11-20
原始信息汇总
KM-Medallion 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 任务类别: 文本生成、特征提取
- 领域标签: 生物学、基因组学、马克斯克鲁维酵母
- 数据规模: 1K<n<10K
- 语言: 英语
数据集配置
bronze_raw_archive
- 数据文件:
- 训练集: data/bronze_raw_archive/train.parquet
- 验证集: data/bronze_raw_archive/validation.parquet
- 测试集: data/bronze_raw_archive/test.parquet
- 字段数量: 20
- 层级: 青铜级
silver_semantic_nlp
- 数据文件:
- 训练集: data/silver_semantic_nlp/train.parquet
- 验证集: data/silver_semantic_nlp/validation.parquet
- 测试集: data/silver_semantic_nlp/test.parquet
- 字段数量: 16
- 层级: 白银级
gold_chemo_metabolic
- 数据文件:
- 训练集: data/gold_chemo_metabolic/train.parquet
- 验证集: data/gold_chemo_metabolic/validation.parquet
- 测试集: data/gold_chemo_metabolic/test.parquet
- 字段数量: 16
- 层级: 黄金级
gold_knowledge_graph
- 数据文件:
- 训练集: data/gold_knowledge_graph/train.parquet
- 验证集: data/gold_knowledge_graph/validation.parquet
- 测试集: data/gold_knowledge_graph/test.parquet
- 字段数量: 11
- 层级: 黄金级
platinum_ai_ready
- 数据文件:
- 训练集: data/platinum_ai_ready/train.parquet
- 验证集: data/platinum_ai_ready/validation.parquet
- 测试集: data/platinum_ai_ready/test.parquet
- 字段数量: 11
- 层级: 铂金级
使用示例
python from datasets import load_dataset ds = load_dataset("Milad96/KM-Medallion", "platinum_ai_ready", split="train")
联系方式
- 邮箱: dr.m.shaghaghy@gmail.com
- 仓库地址: https://huggingface.co/datasets/Milad96/KM-Medallion
引用格式
bibtex @dataset{km_digital_twin, author = {Shaghaghy, Milad}, title = {K. marxianus Digital Twin Engine}, year = {2025}, version = {7.2.0}, url = {https://huggingface.co/datasets/Milad96/KM-Medallion} }
搜集汇总
数据集介绍

构建方式
在基因组学研究领域,KM-Medallion数据集采用分层架构构建,涵盖从原始数据到人工智能就绪数据的完整流程。该数据集包含五个层级:青铜层存储原始档案数据,白银层整合语义自然语言处理结果,黄金层分为化学代谢与知识图谱两个子集,铂金层则优化为可直接用于机器学习模型的格式。每个层级均提供训练集、验证集和测试集的标准化划分,数据以Parquet文件格式存储,确保高效访问与处理。
使用方法
研究人员可通过Hugging Face数据集库直接加载KM-Medallion数据集,特别推荐使用铂金层配置以获得最佳的人工智能模型训练效果。加载时需指定数据集名称、配置名称和所需的数据分割,例如加载训练集时可调用load_dataset函数并设定split参数为train。该数据集支持文本生成和特征提取两类核心任务,其标准化格式确保了与主流机器学习框架的兼容性,为酵母基因组数字化研究提供了即用型数据支持。
背景与挑战
背景概述
随着合成生物学与计算生物学的深度融合,微生物数字孪生模型成为推动工业生物技术革新的关键工具。KM-Medallion数据集由Milad Shaghaghy博士于2025年构建,聚焦马克斯克鲁维酵母(Kluyveromyces marxianus)这一具有高效生物转化能力的非模式酵母。该数据集通过多层级架构整合基因组学、代谢网络与语义分析数据,旨在构建该微生物的数字孪生体,为理性菌株设计提供可计算框架,显著加速了工业微生物从基因型到表型的解析效率。
当前挑战
微生物数字孪生领域面临多维异构数据融合的复杂性挑战,需解决代谢通路动态模拟与基因组尺度模型校准的精度问题。在数据集构建过程中,原始生物学数据的非结构化特征要求开发复杂的自然语言处理流程,而化学代谢数据的标准化则需克服命名实体识别与本体论映射的障碍。知识图谱构建阶段需协调多源数据库的语义差异,最终实现从青铜级原始档案到铂金级AI就绪数据的无损转化。
常用场景
经典使用场景
在合成生物学领域,KM-Medallion数据集通过其多层级架构为克鲁维酵母菌株的代谢网络建模提供了核心支持。该数据集整合了从原始基因组数据到语义化知识图谱的结构化信息,使研究人员能够系统分析菌株的化学代谢特性与基因表达关联。其铂金级AI就绪格式特别适用于训练深度学习模型,模拟微生物在工业发酵环境中的动态行为。
解决学术问题
该数据集有效解决了非模式微生物研究中数据碎片化的关键问题。通过构建标准化的数字孪生引擎,研究者能够突破传统实验的时空限制,精准预测克鲁维酵母的代谢通路调控机制。这种数据整合方式显著提升了微生物表型预测的准确性,为合成生物学领域的定量研究建立了新范式。
实际应用
在工业生物技术实践中,该数据集支撑着高效细胞工厂的智能化设计。制药企业利用其知识图谱层优化抗生素前体合成路径,食品工业则通过代谢模型改进乳清废弃物转化工艺。这些应用显著降低了生物制造过程的试错成本,推动了可持续生物经济的发展。
数据集最近研究
最新研究方向
随着合成生物学与人工智能的深度融合,KM-Medallion数据集正推动马克斯克鲁维酵母研究迈向新高度。该数据集通过多层级架构整合原始基因组数据与语义标注信息,为构建数字孪生模型提供核心支撑。当前研究聚焦于代谢网络重构与知识图谱融合,利用platinum_ai_ready配置加速菌株优化预测,在生物制造领域实现从基因型到表型的精准映射。这种数据驱动范式正革新传统微生物工程方法,为可再生化学品生产开辟智能设计路径。
以上内容由遇见数据集搜集并总结生成



