harbison_2004
收藏Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/BrentLab/harbison_2004
下载链接
链接失效反馈官方服务:
资源简介:
Harbison 2004 ChIP-chip数据集是一个研究酵母基因转录调控的公开数据集,包含了在不同环境条件下,转录因子与目标基因之间的结合比率及其统计显著性。数据集特征包括实验条件、调控因子的系统名称和标准符号、目标基因的系统名称和标准符号、结合效应大小和p值。这些数据来源于Young实验室,经过特定的分析流程处理,数据集大小介于1M到10M之间。
The Harbison 2004 ChIP-chip dataset is a publicly available dataset for studying transcriptional regulation of yeast genes. It contains the binding ratios between transcription factors and their target genes along with their statistical significance under different environmental conditions. The dataset features include experimental conditions, systematic names and standard symbols of regulatory factors, systematic names and standard symbols of target genes, binding effect sizes and p-values. These data were sourced from the Young Laboratory, processed via a specific analytical pipeline, and the dataset size ranges between 1 MB and 10 MB.
创建时间:
2025-08-22
原始信息汇总
Harbison 2004 数据集概述
数据集基本信息
- 名称:Harbison, 2004 ChIP-chip
- 许可证:MIT
- 语言:英语
- 标签:基因组学、酵母、转录、结合
- 数据规模:1M 到 10M 之间
数据来源与引用
- 原始研究:Harbison CT, Gordon DB, Lee TI, Rinaldi NJ, Macisaac KD, Danford TW, Hannett NM, Tagne JB, Reynolds DB, Yoo J, et al. 2004. Transcriptional regulatory code of a eukaryotic genome. Nature 431: 99–104. doi:10.1038/nature02800
- 数据提取来源:Richard A. Young 实验室网站(http://younglab.wi.mit.edu/regulatory_code/GWLD.html)
数据集结构
数据集包含以下字段:
condition:实验环境条件regulator_locus_tag:ChIP 转录因子的系统基因名称(ORF 标识符)regulator_symbol:ChIP 转录因子的标准基因符号target_locus_tag:目标基因的系统基因名称(ORF 标识符)target_symbol:目标基因的标准基因符号effect:芯片通道比率(效应大小)pvalue:芯片通道比率(效应)的 p 值
实验条件定义
- YPD:富媒体 - 细胞在 YPD(1% 酵母提取物/2% 蛋白胨/2% 葡萄糖)中生长至 OD600 约 0.8
- SM:氨基酸饥饿 - 细胞在合成完全培养基中生长至 OD600 约 0.6,然后用磺酰脲甲基(0.2 mg/ml 终浓度)处理两小时
- RAPA:营养剥夺 - 细胞在 YPD 中生长至 OD600 约 0.8,然后用雷帕霉素(100 nM 终浓度)处理 20 分钟
- H2O2Hi:高度高氧 - 细胞在 YPD 中生长至 OD600 约 0.5,然后用过氧化氢(4 mM 终浓度)处理 30 分钟
- H2O2Lo:中度高氧 - 细胞在 YPD 中生长至 OD600 约 0.5,然后用过氧化氢(0.4 mM 终浓度)处理 20 分钟
- Acid:酸性培养基 - 细胞在 YPD 中生长至 OD600 约 0.5,然后用琥珀酸(0.05 M 终浓度)处理 30 分钟,pH 达到 4.0
- Alpha:交配诱导 - 细胞在 YPD 中生长至 OD600 约 0.8,然后用 α 因子信息素(5 mg/ml)处理 30 分钟
- BUT14:丝状化诱导(14 小时) - 细胞在含有 1% 丁醇的 YPD 中生长 14 小时(OD600 约 0.8)
- BUT90:丝状化诱导(90 分钟) - 细胞在含有 1% 丁醇的 YPD 中生长 90 分钟(OD600 约 0.8)
- Thi-:维生素剥夺培养基 - 细胞在缺乏硫胺素的合成完全培养基中生长至最终 OD 约 0.8
- GAL:半乳糖培养基 - 细胞在补充半乳糖(2%)的 YEP 培养基中生长至 OD600 约 0.8
- HEAT:高温 - 细胞在 30°C 的 YPD 中生长至 OD600 约 0.5,然后温度转移至 37°C 45 分钟
- Pi-:磷酸盐剥夺培养基 - 细胞在缺乏磷酸盐的合成完全培养基中生长至最终 OD 约 0.8
- RAFF:棉子糖培养基 - 细胞在补充棉子糖(2%)的 YEP 培养基中生长至 OD600 约 0.8
数据处理
数据从 Young 实验室提供的 Excel 文件解析而来,包括 P 值和结合比率文件。解析脚本包含在 scripts/ 目录中。
数据集作者与联系方式
- 作者:Chase Mateusiak
- GitHub:https://github.com/cmatkhan/
搜集汇总
数据集介绍

构建方式
在基因组学领域,Harbison 2004数据集通过染色质免疫沉淀芯片技术系统性地捕获了酵母转录因子与DNA的相互作用数据。研究团队采用高密度微阵列扫描和双通道荧光标记策略,对免疫沉淀样本和未富集对照进行标准化处理,运用误差模型整合重复实验数据,并排除了技术伪影和低质量探针,最终生成包含结合比率和统计显著性的高质量互作注释。
特点
该数据集囊括了204个酵母转录因子在多种环境条件下的全基因组结合谱,涵盖YPD基础培养基及营养胁迫、氧化应激等13种实验条件。每条记录精确标注了调控因子与靶基因的系统命名和通用符号,并提供了经过标准化处理的结合效应值与统计显著性p值,为研究转录调控网络的条件特异性提供了多维数据基础。
使用方法
研究人员可通过解析parquet格式的数据文件,提取特定转录因子在不同环境条件下的靶基因结合信息。结合效应值与p值可用于构建条件特异性调控网络,识别关键转录模块,或通过比较不同实验条件揭示转录因子动态结合行为,为基因调控机制研究提供量化依据。
背景与挑战
背景概述
酵母基因组调控研究领域在二十一世纪初迎来重要突破,Harbison等人于2004年在《Nature》期刊发表了里程碑式的转录调控编码研究。该数据集由Richard A. Young实验室主导创建,通过染色质免疫沉淀结合芯片技术(ChIP-chip)系统性地绘制了酿酒酵母转录因子与DNA的相互作用图谱。研究团队针对204个调控因子在不同环境条件下的结合特性进行量化分析,揭示了真核生物基因组转录调控的基本规律,为后续基因调控网络研究奠定了数据基础。
当前挑战
该数据集致力于解决转录因子结合位点全基因组鉴定难题,其核心挑战在于高维数据噪声过滤与多重假设检验校正。构建过程中需克服芯片探针特异性差异、抗体交叉反应带来的假阳性信号,以及不同环境条件下细胞状态变异对结合亲和力的影响。实验设计需统筹考虑多种应激条件的时间动态性与剂量效应,而数据标准化过程则面临通道间荧光强度系统偏差校正与重复实验间一致性验证等技术瓶颈。
常用场景
经典使用场景
在基因组学研究中,Harbison 2004数据集被广泛应用于酿酒酵母转录调控网络的系统性解析。研究者利用该数据集提供的染色质免疫沉淀芯片数据,深入探索转录因子与DNA靶标之间的结合特异性,为构建全基因组范围的调控图谱提供关键实验证据。该数据集已成为真核生物转录调控机制研究的基准数据源,支撑了多项关于基因表达调控网络拓扑结构和动态响应机制的重要发现。
解决学术问题
该数据集成功解决了真核生物转录调控编码破译的核心学术难题,通过高通量实验数据揭示了转录因子在多种环境条件下的结合偏好性。其重要意义在于首次系统性描绘了酵母基因组中调控元件的功能图谱,为理解转录调控网络的复杂性和适应性提供了实证基础。这项工作的影响深远,推动了计算生物学与实验生物学的融合,奠定了后续调控基因组学研究的方法学范式。
衍生相关工作
基于该数据集衍生的经典工作包括调控网络建模算法的发展,如基于贝叶斯网络的调控关系推断方法,以及转录因子结合位点预测模型的优化。这些工作显著提升了我们对转录调控逻辑的理解,催生了诸如RegulonDB等知名数据库的构建。后续研究还拓展到比较基因组学领域,通过跨物种保守性分析揭示转录调控网络的进化规律,形成了系列重要学术成果。
以上内容由遇见数据集搜集并总结生成



