five

rossi_2021

收藏
Hugging Face2025-09-11 更新2025-09-12 收录
下载链接:
https://huggingface.co/datasets/BrentLab/rossi_2021
下载链接
链接失效反馈
官方服务:
资源简介:
Rossi ChIP-exo 2021数据集包含了来自yeastepigenome.org的转录因子结合位点的ChIP-exo实验数据。该数据集由两个主要部分组成:metadata和genome_map。metadata部分提供了每个实验中标记的调节因子的系统基因名称、标准基因符号、GEO运行访问标识符和样本标识符。genome_map部分提供了经过处理的序列文件数据,包括染色体名称、5'标签的基因组位置和该位置的覆盖深度。这些数据可以用来研究酵母基因组中的蛋白质结构。
创建时间:
2025-08-29
原始信息汇总

Rossi 2021 数据集概述

数据集基本信息

  • 许可证: MIT
  • 标签: 转录因子、结合、ChIP-exo、基因组学、生物学
  • 数据集名称: Rossi ChIP-exo 2021

数据配置

元数据配置 (metadata)

  • 描述: 描述每个实验中标记调控因子的元数据
  • 默认配置: 是
  • 数据文件: rossi_2021_metadata.parquet

特征字段

  • regulator_locus_tag: 转录因子的系统基因名称(ORF标识符)
  • regulator_symbol: 转录因子的标准基因符号
  • run_accession: 样本的GEO运行登录标识符
  • yeastepigenome_id: yeastepigenome.org使用的样本标识符

基因组图谱配置 (genome_map)

  • 描述: 按样本登录号分区的ChIP-exo 5标签覆盖数据
  • 数据文件: genome_map//.parquet
  • 分区方式: 按run_accession字段分区

特征字段

  • chr: 染色体名称(如chrI、chrII等)
  • pos: 5标签的基因组位置
  • pileup: 该基因组位置的覆盖深度(5标签数量)

数据来源

  • 数据采集自https://yeastepigenome.org/
  • 原始研究发表于Nature期刊(2021年4月)
  • DOI: https://doi.org/10.1038/s41586-021-03314-8

数据处理

  • 使用nf-core/chipseq流程对序列文件进行完全重新处理
  • 使用samtools按照Rossi等人2021年指定的设置过滤读数
  • 使用bedtools计算5末端数量

使用建议

  • 整个存储库较大,建议仅检索特定文件或分区
  • 可使用元数据文件选择要下载的文件
  • 支持按样本登录号进行分区下载
搜集汇总
数据集介绍
main_image_url
构建方式
在基因组学领域,Rossi 2021数据集通过系统性整合酵母表观基因组计划的高通量测序数据,采用ChIP-exo技术捕获转录因子与DNA互作位点。数据构建过程中,研究团队运用nf-core/chipseq标准化流程对原始序列进行重处理,随后利用samtools工具按照Rossi等人设定的严格参数过滤读段,最终通过bedtools精准统计5'端标签覆盖深度,形成以样本为单位的基因组定位数据。
特点
该数据集的核心价值在于其前所未有的分辨率与系统性,完整覆盖了酵母基因组中转录因子的结合图谱。数据以Parquet格式高效存储,采用分区化设计实现按样本编号快速检索,每个分区包含染色体坐标、5'端标签位置及覆盖深度三重维度。元数据表与基因组覆盖数据通过run_accession字段无缝关联,既支持宏观的调控网络分析,也满足单碱基精度的结合位点研究需求。
使用方法
针对数据规模庞大的特点,推荐采用按需加载策略优先获取元数据表,通过筛选目标样本编号再定向下载对应分区。借助DuckDB等分析工具可直接查询Parquet文件,无需全量加载即可执行高效基因组范围统计。用户可结合yeastepigenome.org提供的原始实验背景信息,将本数据集与其它表观基因组学数据进行整合分析,探索转录因子在染色体空间中的调控逻辑。
背景与挑战
背景概述
Rossi 2021数据集由宾夕法尼亚州立大学B. Franklin Pugh教授团队于2021年构建,聚焦于酿酒酵母转录因子结合位点的高分辨率图谱研究。该数据集基于ChIP-exo技术,通过对200余种转录因子的全基因组结合位点进行系统性测绘,揭示了真核生物基因调控网络的精细架构。其研究成果发表于《Nature》期刊,为表观遗传学和基因组学领域提供了前所未有的空间分辨率,极大推动了染色质结构与基因表达调控机制的深入研究。
当前挑战
该数据集致力于解决转录因子结合位点检测中的分辨率限制问题,传统ChIP-seq技术难以实现单碱基精确定位。构建过程中面临多重挑战:ChIP-exo实验需要优化外切酶处理条件以精确截断DNA片段;高通量数据分析需开发新型算法处理5'端标签堆积信息;样本间标准化要求消除技术偏差以保证数据可比性;此外,大规模数据存储与分布式查询架构的设计需平衡计算效率与存储成本。
常用场景
经典使用场景
在基因组学研究中,Rossi 2021数据集为转录因子结合位点的高精度定位提供了关键数据支撑。研究者通过分析ChIP-exo技术生成的5'端标签覆盖数据,能够精确绘制酵母转录因子与DNA相互作用的单碱基分辨率图谱,这种精细度显著超越了传统ChIP-seq技术的空间分辨率限制。
实际应用
在实践应用中,该数据集被广泛用于构建酵母转录调控网络,指导基因编辑实验的靶点设计,以及验证计算生物学模型预测的转录因子结合位点。生物技术公司利用这些高精度数据开发基因调控元件设计工具,而制药企业则将其用于识别疾病相关转录因子的特异性结合序列,为靶向药物研发提供理论依据。
衍生相关工作
基于该数据集衍生的经典工作包括开发新型转录因子结合位点预测算法、构建酵母全基因组三维染色质互作模型,以及建立转录因子结合与基因表达调控的定量关系模型。这些研究不仅推进了对真核生物基因调控机制的理解,还为合成生物学中的基因回路设计提供了重要参考框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作