five

Kluyveromyces-marxianus

收藏
Hugging Face2025-11-05 更新2025-11-06 收录
下载链接:
https://huggingface.co/datasets/Milad96/Kluyveromyces-marxianus
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集是关于Kluyveromyces marxianus的,包含了多种类型的数据,如蛋白质结构、文献、基因组、蛋白质组等。数据集提供了超过12,000个蛋白质结构预测,以及超过77,000篇研究文章。数据集还包含了基因本体论注释、蛋白质-蛋白质相互作用网络、代谢途径图等。数据集的目的是为了支持工业酵母工程研究,包括代谢工程、结构生物学、系统生物学和比较基因组学等。此外,数据集还适用于工业应用,如生物过程优化、菌株开发、专利情报和产品开发。数据集还适用于机器学习任务,如蛋白质语言模型预训练、结构预测、功能预测和文献挖掘。数据集使用了MIT许可证,可以免费用于商业和研究。
创建时间:
2025-11-03
原始信息汇总

Kluyveromyces-marxianus 数据集概述

基本信息

  • 数据集名称:Kluyveromyces-marxianus
  • 许可证:MIT
  • 任务类别:特征提取、文本生成
  • 数据规模:100K<n<1M
  • 下载大小:12,686,865字节
  • 数据集大小:32,775,207字节

数据特征

核心特征字段

  • 标识信息:id、source、record_id
  • 文献信息:title、abstract、fulltext、year、doi、pmid、pmcid
  • 作者信息:authors、journal、license、keywords
  • 生物信息:organism、strain、taxonomy_id、gene_mentions、protein_ids
  • 功能注释:kegg_pathways、go_terms、plddt
  • 多媒体内容:structure_url、tables、figures、graphical_abstract、supplementary_files、videos、audio
  • 质量控制:cleaned、noise_score、duplicate_hash、quality_score
  • 元数据:version、created_at、updated_at、metadata_json

数据划分

数据源 样本数量 数据大小(字节)
pubmed 145 341,628
pmc 401 30,751,589
crossref 167 215,816
biorxiv_medrxiv 199 483,605
ena 342 668,616
geo 33 56,781
clinicaltrials_advanced 74 126,967
youtube_scientific 2 1,850
arrayexpress 99 72,853
geo_stress_expression 15 18,962
brenda_enzymes 49 24,040
metacyc_pathways 8 4,577
yeastract 8 5,005
regulatory_motifs 6 2,918

数据来源

主要数据源

  • AlphaFold DB:结构预测
  • UniProt:蛋白质序列和注释
  • STRING:蛋白质相互作用
  • Gene Ontology:功能分类
  • KEGG:代谢通路图谱

文献数据源

  • PubMed:25,000+同行评审论文
  • PMC:15,000+全文文章
  • Europe PMC:15,000+开放获取论文
  • Crossref:12,000+ DOI记录
  • bioRxiv/medRxiv:5,000+预印本

基因组数据源

  • NCBI Assembly:1,000+基因组组装
  • ENA:8,000+测序读数
  • GEO:8,000+表达数据集

应用场景

研究应用

  • 代谢工程:优化生物乙醇/生物质生产
  • 结构生物学:蛋白质功能预测
  • 系统生物学:网络分析和调控回路
  • 比较基因组学:进化研究

工业应用

  • 生物过程优化:发酵调节
  • 菌株开发:理性工程
  • 专利情报:竞争分析
  • 产品开发:新型酶发现

机器学习应用

  • 蛋白质语言模型:预训练语料库
  • 结构预测:基准验证
  • 功能预测:GO术语分类
  • 文献挖掘:NLP训练数据

数据统计

  • AlphaFold结构:12,000+(100%蛋白质组覆盖)
  • 高置信度结构(pLDDT≥90):8,210+(68.4%)
  • GO术语注释:11,760+(98.0%)
  • STRING相互作用:10,320+(86.0%)
  • 专利文档:8,000+
  • 研究文章:77,000+
  • 基因组组装:1,000+
  • 优先应激基因:102(专家策划)
搜集汇总
数据集介绍
main_image_url
构建方式
在工业酵母系统生物学研究领域,Kluyveromyces-marxianus数据集通过整合15个权威生物信息学资源构建而成。该数据集汇集了AlphaFold数据库的蛋白质结构预测、UniProt的序列注释以及STRING的相互作用网络,同时纳入PubMed和PMC等平台的文献数据。构建过程采用多源数据融合技术,涵盖从基因组组装到蛋白质功能注释的全方位信息,并通过质量评分机制确保数据的可靠性与一致性。
使用方法
研究人员可通过HuggingFace平台直接加载数据集整体或特定子集,如结构预测数据或文献数据。利用内置的过滤功能,可快速筛选高置信度蛋白质结构或特定功能基因。该数据集支持多种分析场景,包括蛋白质语言模型预训练、代谢通路重构和比较基因组学研究,为工业生物技术领域的算法开发与实证研究提供完备的数据基础。
背景与挑战
背景概述
随着合成生物学与工业生物技术的蓬勃发展,马克斯克鲁维酵母(Kluyveromyces marxianus)因其卓越的代谢多样性和环境耐受性,成为生物制造领域的关键模式微生物。该数据集由研究机构Milad96于2025年构建,整合了来自AlphaFold结构预测、多组学文献与基因组资源的海量数据,旨在系统解析该酵母的蛋白质功能网络与代谢调控机制。其覆盖了超12,000个蛋白质结构、77,000篇研究文献及千余基因组组装,为工业菌株理性设计与系统生物学研究提供了前所未有的数据基石,显著推动了非传统酵母在生物能源与高值化合物合成中的应用进程。
当前挑战
在工业微生物功能解析领域,马克斯克鲁维酵母数据集需应对多维度挑战:其一,蛋白质结构与功能注释的精准关联尚存空白,尤其涉及应激响应等复杂表型时,高置信度结构仅覆盖约68%的蛋白质组;其二,数据整合过程中面临异源数据库的标准化难题,如文献中的基因提及与实验数据间的语义对齐,以及跨平台生物通路标识的统一映射。此外,海量非结构化数据(如专利与学术图表)的自动化抽取与质量控制,亦对数据一致性与可复现性构成持续考验。
常用场景
经典使用场景
在工业酵母工程领域,Kluyveromyces-marxianus数据集常被用于多组学整合分析。研究人员借助其包含的AlphaFold结构预测、蛋白质互作网络和代谢通路注释,系统解析该酵母的代谢特性与应激响应机制。通过整合基因组、蛋白质组和文献数据,能够深入探索其在高糖环境下的适应性进化规律。
解决学术问题
该数据集有效解决了工业微生物研究中数据分散的瓶颈问题。通过整合12,000余个蛋白质结构预测与77,000篇研究文献,为系统生物学研究提供了统一的数据基础。其覆盖98%基因功能注释的特性,显著推进了酵母代谢网络重构、蛋白质功能预测等关键科学问题的研究进程。
实际应用
在生物制造领域,该数据集支撑了克鲁维酵母的工业化应用进程。生物工程师利用其包含的1,000余个基因组组装和8,000余项专利情报,优化了乙醇发酵工艺和酶制剂开发。临床前研究则借助其蛋白质互作网络数据,加速了新型生物催化剂的设计与验证。
数据集最近研究
最新研究方向
随着合成生物学在工业应用中的深入发展,马克斯克鲁维酵母数据集正推动多组学整合研究的前沿探索。当前研究聚焦于利用AlphaFold结构预测与蛋白质语言模型,解析该酵母在高温胁迫下的代谢网络重构机制,结合基因组与蛋白质组数据开发高效细胞工厂。热点方向包括通过系统生物学方法优化生物乙醇生产路径,以及整合文献挖掘与专利情报构建工业菌株设计知识图谱,显著提升了非传统酵母在生物制造领域的工程化应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作