Kluyveromyces-marxianus
收藏Hugging Face2025-11-05 更新2025-11-06 收录
下载链接:
https://huggingface.co/datasets/Milad96/Kluyveromyces-marxianus
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集是关于Kluyveromyces marxianus的,包含了多种类型的数据,如蛋白质结构、文献、基因组、蛋白质组等。数据集提供了超过12,000个蛋白质结构预测,以及超过77,000篇研究文章。数据集还包含了基因本体论注释、蛋白质-蛋白质相互作用网络、代谢途径图等。数据集的目的是为了支持工业酵母工程研究,包括代谢工程、结构生物学、系统生物学和比较基因组学等。此外,数据集还适用于工业应用,如生物过程优化、菌株开发、专利情报和产品开发。数据集还适用于机器学习任务,如蛋白质语言模型预训练、结构预测、功能预测和文献挖掘。数据集使用了MIT许可证,可以免费用于商业和研究。
创建时间:
2025-11-03
原始信息汇总
Kluyveromyces-marxianus 数据集概述
基本信息
- 数据集名称:Kluyveromyces-marxianus
- 许可证:MIT
- 任务类别:特征提取、文本生成
- 数据规模:100K<n<1M
- 下载大小:12,686,865字节
- 数据集大小:32,775,207字节
数据特征
核心特征字段
- 标识信息:id、source、record_id
- 文献信息:title、abstract、fulltext、year、doi、pmid、pmcid
- 作者信息:authors、journal、license、keywords
- 生物信息:organism、strain、taxonomy_id、gene_mentions、protein_ids
- 功能注释:kegg_pathways、go_terms、plddt
- 多媒体内容:structure_url、tables、figures、graphical_abstract、supplementary_files、videos、audio
- 质量控制:cleaned、noise_score、duplicate_hash、quality_score
- 元数据:version、created_at、updated_at、metadata_json
数据划分
| 数据源 | 样本数量 | 数据大小(字节) |
|---|---|---|
| pubmed | 145 | 341,628 |
| pmc | 401 | 30,751,589 |
| crossref | 167 | 215,816 |
| biorxiv_medrxiv | 199 | 483,605 |
| ena | 342 | 668,616 |
| geo | 33 | 56,781 |
| clinicaltrials_advanced | 74 | 126,967 |
| youtube_scientific | 2 | 1,850 |
| arrayexpress | 99 | 72,853 |
| geo_stress_expression | 15 | 18,962 |
| brenda_enzymes | 49 | 24,040 |
| metacyc_pathways | 8 | 4,577 |
| yeastract | 8 | 5,005 |
| regulatory_motifs | 6 | 2,918 |
数据来源
主要数据源
- AlphaFold DB:结构预测
- UniProt:蛋白质序列和注释
- STRING:蛋白质相互作用
- Gene Ontology:功能分类
- KEGG:代谢通路图谱
文献数据源
- PubMed:25,000+同行评审论文
- PMC:15,000+全文文章
- Europe PMC:15,000+开放获取论文
- Crossref:12,000+ DOI记录
- bioRxiv/medRxiv:5,000+预印本
基因组数据源
- NCBI Assembly:1,000+基因组组装
- ENA:8,000+测序读数
- GEO:8,000+表达数据集
应用场景
研究应用
- 代谢工程:优化生物乙醇/生物质生产
- 结构生物学:蛋白质功能预测
- 系统生物学:网络分析和调控回路
- 比较基因组学:进化研究
工业应用
- 生物过程优化:发酵调节
- 菌株开发:理性工程
- 专利情报:竞争分析
- 产品开发:新型酶发现
机器学习应用
- 蛋白质语言模型:预训练语料库
- 结构预测:基准验证
- 功能预测:GO术语分类
- 文献挖掘:NLP训练数据
数据统计
- AlphaFold结构:12,000+(100%蛋白质组覆盖)
- 高置信度结构(pLDDT≥90):8,210+(68.4%)
- GO术语注释:11,760+(98.0%)
- STRING相互作用:10,320+(86.0%)
- 专利文档:8,000+
- 研究文章:77,000+
- 基因组组装:1,000+
- 优先应激基因:102(专家策划)
搜集汇总
数据集介绍

构建方式
在工业酵母系统生物学研究领域,Kluyveromyces-marxianus数据集通过整合15个权威生物信息学资源构建而成。该数据集汇集了AlphaFold数据库的蛋白质结构预测、UniProt的序列注释以及STRING的相互作用网络,同时纳入PubMed和PMC等平台的文献数据。构建过程采用多源数据融合技术,涵盖从基因组组装到蛋白质功能注释的全方位信息,并通过质量评分机制确保数据的可靠性与一致性。
使用方法
研究人员可通过HuggingFace平台直接加载数据集整体或特定子集,如结构预测数据或文献数据。利用内置的过滤功能,可快速筛选高置信度蛋白质结构或特定功能基因。该数据集支持多种分析场景,包括蛋白质语言模型预训练、代谢通路重构和比较基因组学研究,为工业生物技术领域的算法开发与实证研究提供完备的数据基础。
背景与挑战
背景概述
随着合成生物学与工业生物技术的蓬勃发展,马克斯克鲁维酵母(Kluyveromyces marxianus)因其卓越的代谢多样性和环境耐受性,成为生物制造领域的关键模式微生物。该数据集由研究机构Milad96于2025年构建,整合了来自AlphaFold结构预测、多组学文献与基因组资源的海量数据,旨在系统解析该酵母的蛋白质功能网络与代谢调控机制。其覆盖了超12,000个蛋白质结构、77,000篇研究文献及千余基因组组装,为工业菌株理性设计与系统生物学研究提供了前所未有的数据基石,显著推动了非传统酵母在生物能源与高值化合物合成中的应用进程。
当前挑战
在工业微生物功能解析领域,马克斯克鲁维酵母数据集需应对多维度挑战:其一,蛋白质结构与功能注释的精准关联尚存空白,尤其涉及应激响应等复杂表型时,高置信度结构仅覆盖约68%的蛋白质组;其二,数据整合过程中面临异源数据库的标准化难题,如文献中的基因提及与实验数据间的语义对齐,以及跨平台生物通路标识的统一映射。此外,海量非结构化数据(如专利与学术图表)的自动化抽取与质量控制,亦对数据一致性与可复现性构成持续考验。
常用场景
经典使用场景
在工业酵母工程领域,Kluyveromyces-marxianus数据集常被用于多组学整合分析。研究人员借助其包含的AlphaFold结构预测、蛋白质互作网络和代谢通路注释,系统解析该酵母的代谢特性与应激响应机制。通过整合基因组、蛋白质组和文献数据,能够深入探索其在高糖环境下的适应性进化规律。
解决学术问题
该数据集有效解决了工业微生物研究中数据分散的瓶颈问题。通过整合12,000余个蛋白质结构预测与77,000篇研究文献,为系统生物学研究提供了统一的数据基础。其覆盖98%基因功能注释的特性,显著推进了酵母代谢网络重构、蛋白质功能预测等关键科学问题的研究进程。
实际应用
在生物制造领域,该数据集支撑了克鲁维酵母的工业化应用进程。生物工程师利用其包含的1,000余个基因组组装和8,000余项专利情报,优化了乙醇发酵工艺和酶制剂开发。临床前研究则借助其蛋白质互作网络数据,加速了新型生物催化剂的设计与验证。
数据集最近研究
最新研究方向
随着合成生物学在工业应用中的深入发展,马克斯克鲁维酵母数据集正推动多组学整合研究的前沿探索。当前研究聚焦于利用AlphaFold结构预测与蛋白质语言模型,解析该酵母在高温胁迫下的代谢网络重构机制,结合基因组与蛋白质组数据开发高效细胞工厂。热点方向包括通过系统生物学方法优化生物乙醇生产路径,以及整合文献挖掘与专利情报构建工业菌株设计知识图谱,显著提升了非传统酵母在生物制造领域的工程化应用潜力。
以上内容由遇见数据集搜集并总结生成



