Kluyveromyces-marxianus

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/Milad96/Kluyveromyces-marxianus

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是关于Kluyveromyces marxianus的，包含了多种类型的数据，如蛋白质结构、文献、基因组、蛋白质组等。数据集提供了超过12,000个蛋白质结构预测，以及超过77,000篇研究文章。数据集还包含了基因本体论注释、蛋白质-蛋白质相互作用网络、代谢途径图等。数据集的目的是为了支持工业酵母工程研究，包括代谢工程、结构生物学、系统生物学和比较基因组学等。此外，数据集还适用于工业应用，如生物过程优化、菌株开发、专利情报和产品开发。数据集还适用于机器学习任务，如蛋白质语言模型预训练、结构预测、功能预测和文献挖掘。数据集使用了MIT许可证，可以免费用于商业和研究。

创建时间：

2025-11-03

原始信息汇总

Kluyveromyces-marxianus 数据集概述

基本信息

数据集名称：Kluyveromyces-marxianus
许可证：MIT
任务类别：特征提取、文本生成
数据规模：100K<n<1M
下载大小：12,686,865字节
数据集大小：32,775,207字节

数据特征

核心特征字段

标识信息：id、source、record_id
文献信息：title、abstract、fulltext、year、doi、pmid、pmcid
作者信息：authors、journal、license、keywords
生物信息：organism、strain、taxonomy_id、gene_mentions、protein_ids
功能注释：kegg_pathways、go_terms、plddt
多媒体内容：structure_url、tables、figures、graphical_abstract、supplementary_files、videos、audio
质量控制：cleaned、noise_score、duplicate_hash、quality_score
元数据：version、created_at、updated_at、metadata_json

数据划分

数据源	样本数量	数据大小(字节)
pubmed	145	341,628
pmc	401	30,751,589
crossref	167	215,816
biorxiv_medrxiv	199	483,605
ena	342	668,616
geo	33	56,781
clinicaltrials_advanced	74	126,967
youtube_scientific	2	1,850
arrayexpress	99	72,853
geo_stress_expression	15	18,962
brenda_enzymes	49	24,040
metacyc_pathways	8	4,577
yeastract	8	5,005
regulatory_motifs	6	2,918

数据来源

主要数据源

AlphaFold DB：结构预测
UniProt：蛋白质序列和注释
STRING：蛋白质相互作用
Gene Ontology：功能分类
KEGG：代谢通路图谱

文献数据源

PubMed：25,000+同行评审论文
PMC：15,000+全文文章
Europe PMC：15,000+开放获取论文
Crossref：12,000+ DOI记录
bioRxiv/medRxiv：5,000+预印本

基因组数据源

NCBI Assembly：1,000+基因组组装
ENA：8,000+测序读数
GEO：8,000+表达数据集

应用场景

研究应用

代谢工程：优化生物乙醇/生物质生产
结构生物学：蛋白质功能预测
系统生物学：网络分析和调控回路
比较基因组学：进化研究

工业应用

生物过程优化：发酵调节
菌株开发：理性工程
专利情报：竞争分析
产品开发：新型酶发现

机器学习应用

蛋白质语言模型：预训练语料库
结构预测：基准验证
功能预测：GO术语分类
文献挖掘：NLP训练数据

数据统计

AlphaFold结构：12,000+（100%蛋白质组覆盖）
高置信度结构(pLDDT≥90)：8,210+（68.4%）
GO术语注释：11,760+（98.0%）
STRING相互作用：10,320+（86.0%）
专利文档：8,000+
研究文章：77,000+
基因组组装：1,000+
优先应激基因：102（专家策划）

搜集汇总

数据集介绍

构建方式

在工业酵母系统生物学研究领域，Kluyveromyces-marxianus数据集通过整合15个权威生物信息学资源构建而成。该数据集汇集了AlphaFold数据库的蛋白质结构预测、UniProt的序列注释以及STRING的相互作用网络，同时纳入PubMed和PMC等平台的文献数据。构建过程采用多源数据融合技术，涵盖从基因组组装到蛋白质功能注释的全方位信息，并通过质量评分机制确保数据的可靠性与一致性。

使用方法

研究人员可通过HuggingFace平台直接加载数据集整体或特定子集，如结构预测数据或文献数据。利用内置的过滤功能，可快速筛选高置信度蛋白质结构或特定功能基因。该数据集支持多种分析场景，包括蛋白质语言模型预训练、代谢通路重构和比较基因组学研究，为工业生物技术领域的算法开发与实证研究提供完备的数据基础。

背景与挑战

背景概述

随着合成生物学与工业生物技术的蓬勃发展，马克斯克鲁维酵母（Kluyveromyces marxianus）因其卓越的代谢多样性和环境耐受性，成为生物制造领域的关键模式微生物。该数据集由研究机构Milad96于2025年构建，整合了来自AlphaFold结构预测、多组学文献与基因组资源的海量数据，旨在系统解析该酵母的蛋白质功能网络与代谢调控机制。其覆盖了超12,000个蛋白质结构、77,000篇研究文献及千余基因组组装，为工业菌株理性设计与系统生物学研究提供了前所未有的数据基石，显著推动了非传统酵母在生物能源与高值化合物合成中的应用进程。

当前挑战

在工业微生物功能解析领域，马克斯克鲁维酵母数据集需应对多维度挑战：其一，蛋白质结构与功能注释的精准关联尚存空白，尤其涉及应激响应等复杂表型时，高置信度结构仅覆盖约68%的蛋白质组；其二，数据整合过程中面临异源数据库的标准化难题，如文献中的基因提及与实验数据间的语义对齐，以及跨平台生物通路标识的统一映射。此外，海量非结构化数据（如专利与学术图表）的自动化抽取与质量控制，亦对数据一致性与可复现性构成持续考验。

常用场景

经典使用场景

在工业酵母工程领域，Kluyveromyces-marxianus数据集常被用于多组学整合分析。研究人员借助其包含的AlphaFold结构预测、蛋白质互作网络和代谢通路注释，系统解析该酵母的代谢特性与应激响应机制。通过整合基因组、蛋白质组和文献数据，能够深入探索其在高糖环境下的适应性进化规律。

解决学术问题

该数据集有效解决了工业微生物研究中数据分散的瓶颈问题。通过整合12,000余个蛋白质结构预测与77,000篇研究文献，为系统生物学研究提供了统一的数据基础。其覆盖98%基因功能注释的特性，显著推进了酵母代谢网络重构、蛋白质功能预测等关键科学问题的研究进程。

实际应用

在生物制造领域，该数据集支撑了克鲁维酵母的工业化应用进程。生物工程师利用其包含的1,000余个基因组组装和8,000余项专利情报，优化了乙醇发酵工艺和酶制剂开发。临床前研究则借助其蛋白质互作网络数据，加速了新型生物催化剂的设计与验证。

数据集最近研究