yeast_genome_resources
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/BrentLab/yeast_genome_resources
下载链接
链接失效反馈官方服务:
资源简介:
Brent实验室酵母基因组资源数据集,包含便于探索的酵母-omic数据。数据集基于SGD S288C参考基因组,以Parquet格式组织,并根据染色体进行分区。每个数据行代表一个基因组特征,包括染色体位置、起始和结束坐标、正负链、特征类型、基因标识符、常用名称、别名、注释来源和额外信息。
创建时间:
2025-08-21
原始信息汇总
BrentLab Yeast Genome Resources 数据集概述
数据集基本信息
- 许可证:MIT
- 名称:BrentLab Yeast Genome Resources
- 语言:英语
- 配置名称:features(默认配置)
数据集来源
- 数据来源:SGD S288C参考文件(http://sgd-archive.yeastgenome.org/sequence/S288C_reference/genome_releases/)
- 原始文件:S288C_reference_genome_R64-3-1_20210421.tgz
数据集结构
数据格式
- 格式:Parquet格式数据集
- 分区方式:按染色体(chr)分区
- 数据文件位置:features/*/part-0.parquet
特征列说明
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
| start | int32 | 起始坐标(1-based,包含) |
| end | int32 | 终止坐标(1-based,包含) |
| strand | string | 特征链(+ 或 -) |
| type | string | 特征类型分类 |
| locus_tag | string | 特征的系统ID |
| symbol | string | 特征的通用名称 |
| alias | string | 特征的替代名称(通常是替代符号) |
| source | string | 特征的注释文件版本/来源 |
| note | string | 附加特征信息(通常来自SGD gff/gtf的描述) |
分区键说明
- 分区键:chr(染色体名称)
- 数据类型:string
- 染色体列表:chrI, chrII, chrVII, chrV, chrIII, chrIV, chrVIII, chrVI, chrX, chrIX, chrXI, chrXIV, chrXII, chrXIII, chrXV, chrXVI, chrM
特征类型分类
- gene(基因)
- ncRNA_gene(非编码RNA基因)
- tRNA_gene(tRNA基因)
- snoRNA_gene(snoRNA基因)
- transposable_element_gene(转座元件基因)
- pseudogene(假基因)
- telomerase_RNA_gene(端粒酶RNA基因)
- snRNA_gene(snRNA基因)
- rRNA_gene(rRNA基因)
- blocked_reading_frame(阻断阅读框)
数据集用途
该数据集存储了由Brent Lab策划的资源,旨在使酵母组学数据的数据探索更加容易和协调。
引用信息
- 引用要求:引用SGD(https://sites.google.com/view/yeastgenome-help/about#h.p_Qck4DmfRP5zN)
作者信息
- 数据集作者:Chase Mateusiak
- 联系方式:https://github.com/cmatkhan/
搜集汇总
数据集介绍

构建方式
酵母基因组资源数据集源于对酿酒酵母S288C参考基因组的系统性整合,其构建过程依托SGD数据库发布的R64-3-1版本基因组注释文件。通过解析标准GFF格式的基因组特征信息,采用染色体分区策略将数据重构为Parquet列式存储格式,每条记录精确对应一个基因组特征区间,并保留原始注释的坐标系统与生物学分类体系。
特点
该数据集以染色体为单位进行分区存储,涵盖16条核染色体与线粒体chrM的完整注释信息。特征维度包含基因坐标、链方向、功能类型及多层级命名系统,其中类型字段细致区分了编码基因、非编码RNA基因、转座元件等10类生物学实体。数据采用1-based闭区间坐标系统,与主流基因组浏览器规范保持一致,且每个特征均附带SGD官方提供的功能描述文本。
使用方法
研究者可通过HuggingFace Hub接口按染色体分区高效加载数据,避免全基因组数据的一次性载入负担。利用提供的分区查询接口可精准提取目标染色体数据文件,Parquet格式支持跨平台并行读取。数据集适用于基因组浏览器可视化、特征区间统计分析和多组学数据整合等场景,通过与SGD数据库的引用关联确保学术溯源的完整性。
背景与挑战
背景概述
酵母基因组研究作为模式生物系统生物学的重要支柱,BrentLab酵母基因组资源数据集由Brent实验室基于酿酒酵母参考基因组S288C构建,整合了SGD数据库R64-3-1版本的高质量注释信息。该数据集系统收录了染色体结构特征、基因功能分类及多组学注释信息,为真核生物基因调控网络研究和比较基因组学提供了标准化数据基础,显著推进了功能基因组学与合成生物学领域的发展。
当前挑战
该数据集致力于解决真核生物基因组注释标准化与多组学数据整合的复杂性挑战,包括基因边界精确标注、非编码RNA功能分类以及跨物种注释一致性等问题。构建过程中需克服基因组坐标系统转换、异构数据源融合及特征类型语义统一等技术难点,同时确保与UCSC基因组浏览器标准的兼容性,这对基因组数据可视化与分析流程的 interoperability 提出了较高要求。
常用场景
经典使用场景
在酿酒酵母基因组学研究领域,该数据集为系统生物学分析提供了标准化的基因注释框架。研究人员通过染色体分区访问机制,能够精准定位各类功能基因元件,包括蛋白质编码基因、非编码RNA基因以及转座元件等。这种结构化数据组织方式极大促进了全基因组范围内的功能元件分布规律研究,为深入解析真核生物基因组架构奠定了数据基础。
实际应用
在合成生物学和代谢工程实践中,该数据集为酵母底盘细胞的理性设计提供了核心基因组信息。研究人员利用精确的基因坐标和功能注释,能够高效设计CRISPR编辑靶点,优化代谢通路构建策略。制药工业领域借助这些标准化基因组数据,加速了酵母表达系统用于重组蛋白生产的菌株改造进程,显著提高了异源蛋白表达的精准度和效率。
衍生相关工作
基于该数据集衍生的经典研究包括染色质空间构象分析工具的开发,如三维基因组互作预测算法。多项重要研究利用其标准化的基因坐标系统,建立了基因共表达网络与染色质拓扑结构关联模型。此外还催生了酵母合成基因组计划(Sc2.0)的注释标准优化工作,推动了真核生物最小基因组设计原则的理论探索和实践应用。
以上内容由遇见数据集搜集并总结生成



