five

mahendrawada_2025

收藏
Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/BrentLab/mahendrawada_2025
下载链接
链接失效反馈
官方服务:
资源简介:
Mahendrawada 2025数据集包含了酵母基因的基因组特征、ChEC-seq转录因子结合数据和RNA-seq转录因子耗竭后的差异表达数据。基因组特征包括基因ID、基因名称、染色体号、转录起始位点等;ChEC-seq数据包括转录因子结合峰的分数;RNA-seq数据包括转录因子耗竭后的差异表达值的对数变化。数据集以Parquet格式存储,并提供了详细的字段描述和获取使用方法。
创建时间:
2025-08-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Mahendrawada 2025 ChEC-seq and Nascent RNA-seq data
  • 许可证: MIT
  • 语言: 英语
  • 标签: 生物学、基因组学、酵母、转录因子、基因表达、结合、ChEC、扰动、RNA测序、新生RNA测序
  • 数据规模: 100K<n<1M

数据来源

数据来源于《Nature》期刊文章《Low overlap of transcription factor DNA binding and regulatory targets》(Mahendrawada, L., Warfield, L., Donczew, R. et al. Nature 642, 796–804 (2025))的补充材料。

数据集配置

1. 基因组特征(genomic_features)

  • 描述: 酵母基因的全面基因组特征和调控特性
  • 数据文件: features_mahendrawada_2025.parquet
  • 特征字段:
    • gene_id: 系统基因名称(ORF标识符)
    • SGD_id: SGD唯一基因标识符
    • gene_name: 基因常用名称
    • chr: 染色体编号
    • strand: 基因链方向(+或-)
    • start: ORF起始位置
    • end: ORF终止位置
    • TSS: 转录起始位点
    • TATA_category: TATA盒分类
    • expression: 基因长度归一化的平均信号
    • +1 nucleosome: +1核小体位置
    • -1 nucleosome: -1核小体位置
    • NDR Center: 核小体缺失区域中心
    • NDR Width: 核小体缺失区域宽度
    • tail-dependence: 基于Mediator尾依赖的尾部分类
    • coactivator: 基于TFIID和/或SAGA依赖的共激活因子分类
    • LCID_center: 染色体相互作用域边界附近的基因
    • Rossi_classes: 启动子类别
    • RP_category: 核糖体蛋白(RP)和核糖体生物发生(RiBi)基因分类
    • binding_cluster: 使用178个转录因子二元结合数据的无监督K-means聚类
    • list_of_TFS_bound: 结合到基因启动子的转录因子列表
    • number_of_bound_tfs: 每个启动子结合的转录因子数量
    • locus_tag: 系统基因标识符
    • symbol: 标准基因符号

2. ChEC测序数据(chec_seq)

  • 描述: 带有峰值分数的ChEC-seq转录因子结合数据
  • 默认配置: 是
  • 数据文件: chec_mahendrawada_2025.parquet
  • 特征字段:
    • regulator_locus_tag: 转录因子的系统基因名称
    • regulator_symbol: 转录因子的标准基因符号
    • target_locus_tag: 靶基因的系统基因名称
    • target_symbol: 靶基因的标准基因符号
    • peak_score: 峰值中心周围的ChEC信号(从峰值顶点-150到+150 bp的ChEC信号总和),归一化到果蝇spike-in对照

3. RNA测序数据(rna_seq)

  • 描述: 使用4TU代谢标记的转录因子耗竭后的新生RNA-seq差异表达数据
  • 数据文件: rnaseq_mahendrawada_2025.parquet
  • 特征字段:
    • regulator_locus_tag: 耗竭转录因子的系统基因名称
    • regulator_symbol: 耗竭转录因子的标准基因符号
    • target_locus_tag: 差异表达靶基因的系统基因名称
    • target_symbol: 差异表达靶基因的标准基因符号
    • log2fc: 显著受影响基因的Log2倍数变化(IAA/DMSO)(DESeq2,padj <0.1,FC >= 1.3)

数据文件

数据集包含三个Parquet格式文件:

  • features_mahendrawada_2025.parquet(基因组特征数据)
  • chec_mahendrawada_2025.parquet(ChEC-seq结合数据)
  • rnaseq_mahendrawada_2025.parquet(RNA-seq差异表达数据)
搜集汇总
数据集介绍
main_image_url
构建方式
在基因组学研究领域,Mahendrawada 2025数据集通过整合多组学实验技术系统构建。其核心数据来源于ChEC-seq技术捕获的转录因子结合位点,结合4TU代谢标记的Nascent RNA-seq数据,通过HOMER峰值调用算法鉴定启动子区域结合事件。基因组特征模块聚合了来自SGD数据库的基因注释信息,并融合了多篇权威研究的核小体定位、TATA盒分类等调控元件数据,形成多维度的基因调控图谱。
特点
该数据集最显著的特点是三维数据模块的有机整合:基因组特征模块提供20余项结构化注释指标,包括转录起始位点、核小体排布格局等核心调控特征;ChEC-seq模块以峰值评分量化转录因子结合强度,并采用果蝇spike-in对照进行标准化;RNA-seq模块聚焦显著性差异表达基因,采用DESeq2严格筛选(padj<0.1, FC≥1.3)。数据规模达10万至100万条记录,全面覆盖酵母178个转录因子的结合与调控网络。
使用方法
研究人员可通过HuggingFace Hub的snapshot_download接口获取整个数据集,利用DuckDB、pandas或dplyr等工具直接读取parquet格式文件进行高效查询。例如通过regulator_symbol字段筛选特定转录因子(如CST6)的结合靶点,或联合查询genomic_features与chec_seq模块分析转录因子结合与染色质特征的关联。数据集支持多维度交叉分析,包括结合簇分类与表达变化的关联研究,为基因调控机制解析提供完整的数据基础。
背景与挑战
背景概述
转录因子与基因调控机制的研究一直是分子生物学领域的核心议题。Mahendrawada 2025数据集由Mahendrawada、Warfield、Donczew等研究人员于2025年创建,依托于《Nature》期刊发表的突破性研究成果。该数据集整合了酵母基因组中的转录因子结合数据(ChEC-seq)与新生RNA测序数据(Nascent RNA-seq),旨在揭示转录因子DNA结合位点与其调控靶标之间的低重叠现象。通过对178个转录因子的系统分析,该研究挑战了传统基因调控模型,为理解真核生物转录调控网络提供了全新视角,对基因组学与系统生物学领域产生深远影响。
当前挑战
该数据集致力于解决转录因子结合与基因表达调控之间复杂关系的解析难题,主要挑战在于整合多维度基因组数据并建立可靠的因果关系推断模型。在构建过程中,研究人员面临ChEC-seq信号标准化处理的技术挑战,需通过果蝇 spike-in 对照实现精确量化;同时还需解决多源异构数据的整合问题,包括来自不同研究的核小体定位、TATA框分类等特征数据的标准化处理。此外,Nascent RNA-seq数据分析需克服4TU代谢标记带来的技术偏差,并确保差异表达基因筛选的统计严谨性(DESeq2, padj<0.1, FC≥1.3)。
常用场景
经典使用场景
在基因组学研究中,该数据集被广泛应用于转录因子结合位点的系统性分析。研究者通过整合ChEC-seq技术获得的转录因子结合数据与新生RNA-seq表达的扰动数据,构建了酵母转录调控网络的精确图谱。这种多模态数据的融合使得科学家能够深入探究转录因子在基因启动子区域的结合模式与其功能效应之间的复杂关系,为理解真核生物转录调控机制提供了关键实验依据。
衍生相关工作
基于该数据集衍生的研究推动了多个重要方向的发展。在计算方法学方面,催生了新型转录因子结合预测算法的开发,整合多组学数据提高预测精度。在机制研究领域,促进了关于转录因子协同作用与竞争结合的系统性探索。此外,该数据集还支撑了染色质环境对转录因子功能影响的大规模分析,衍生出多项关于核小体定位与基因调控关系的重要研究成果。
数据集最近研究
最新研究方向
在基因组学领域,酵母转录调控研究正经历深刻变革。Mahendrawada 2025数据集通过整合ChEC-seq染色质结合数据和新生RNA-seq扰动响应,揭示了转录因子结合位点与调控靶点之间的低重叠现象,这一发现挑战了传统顺式调控模型。当前研究聚焦于三维基因组架构对转录调控的影响,结合单细胞多组学技术探索细胞异质性背景下的调控网络动态性。该数据集为构建机器学习模型预测基因表达调控提供了多维度特征,推动了合成生物学领域精准调控元件的设计,对真核生物基因调控机制的重新理解具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作