4DN FISH Omics Format - Chromatin Tracing (FOF-CT)
收藏arXiv2025-08-19 更新2025-11-26 收录
下载链接:
https://data.4dnucleome.org/
下载链接
链接失效反馈官方服务:
资源简介:
4DN FISH Omics Format - Chromatin Tracing (FOF-CT)是由4D Nucleome (4DN) Consortium开发的数据标准,用于存储和分享来自多种成像技术的Chromatin Tracing处理结果。该数据标准旨在统一不同平台和研究中DNA FISH数据的表示,以便促进跨不同模型系统、实验条件和分析方法的集成。FOF-CT数据格式支持多种类型的Chromatin Tracing技术,包括球棒模型和基于体积的方法,并且设计上具有模块化和可扩展性,以便未来支持更多类型的Chromatin Tracing数据。
The 4DN FISH Omics Format - Chromatin Tracing (FOF-CT) is a data standard developed by the 4D Nucleome (4DN) Consortium for storing and sharing processed chromatin tracing results from multiple imaging techniques. This data standard aims to unify the representation of DNA FISH data across different platforms and studies, thereby facilitating integration across diverse model systems, experimental conditions, and analytical methods. The FOF-CT data format supports multiple types of chromatin tracing techniques, including bead-and-string models and volume-based approaches, and is designed to be modular and scalable to enable support for additional types of chromatin tracing data in the future.
提供机构:
4D Nucleome (4DN) Consortium
创建时间:
2025-08-19
搜集汇总
数据集介绍

构建方式
FOF-CT的构建以模块化设计为核心理念,旨在统一各类染色质示踪实验的输出结果。该格式包含至多十二个相互关联的表格,其中核心的DNA-Spot/Trace表格为强制性文件,详细记录了每个DNA荧光斑点(Spot)的三维坐标(XYZ)、其靶向基因组片段的BED格式定位信息、所属的染色质轨迹(Trace)以及在细胞内外及亚细胞感兴趣区域(ROI)中的分配情况。其余推荐或条件性必需的表格则进一步整合了斑点去多重化信息、全轨迹尺度的实验结果(如新生RNA表达水平)、并行进行的多重RNA-FISH数据、斑点质量指标及其在细胞核空间架构中的物理坐标,并通过全局唯一的标识符(UID)实现各表格间的精准关联。
特点
该数据集的特点在于其高度的标准化与灵活性。FOF-CT对元数据和坐标表示采用了统一规范,确保了来自不同实验室、不同技术平台(如ORCA、Hi-M、MINA、MERFISH、seqFISH等)的球棒式染色质示踪数据具有互操作性。格式设计兼顾了核心数据的强制表达与补充数据的可选整合,既保证了基础信息的完整性,又为特定实验设计提供了扩展空间。此外,FOF-CT还提供了处理基因组插入或缺失情形的指令,通过补充VCF文件等方式确保数据描述的准确性,从而大幅提升了数据在不同基因组修饰背景下的可重用性和跨研究可比性。
使用方法
使用FOF-CT数据集时,研究人员可直接从4DN数据门户或OME图像数据资源(IDR)下载以该格式标准化的文件。这些数据已通过严格的质量控制和元数据审核,可直接用于下游可视化与分析。已有的分析工具如pyHiM、traceratops以及染色质成像分析工具(CIMA)已将FOF-CT作为其输入输出格式,用户可借助这些工具高效地执行大规模、复杂的分析流程,例如染色质环的检测、缺失数据的插补(如SnapFISH-IMPUTE、ImputeHiFI),以及构建数据驱动的三维基因组模型。同时,IDR平台支持通过公共API检索FOF-CT标注的表格数据,并可基于染色体位置、图像坐标等属性进行斑点级查询,极大地方便了跨研究的数据整合与比较。
背景与挑战
背景概述
在四维核仁组(4D Nucleome)计划的框架下,染色质示踪(Chromatin Tracing)技术通过多重荧光原位杂交(Multiplexed FISH)手段,以前所未有的精度揭示了单细胞中染色质的三维空间构象及其与转录活性的关联。然而,伴随着实验方案的快速迭代,各实验室自行定义的数据存储格式导致了严重的碎片化问题,阻碍了跨研究的数据复用与深度整合。为应对这一挑战,由哈佛医学院、耶鲁大学、斯坦福大学等多家顶尖机构组成的社区于近年共同开发了4DN FISH Omics Format - Chromatin Tracing(FOF-CT),旨在为球杆模型(ball-and-stick)及体积模型(volumetric)等染色质示踪方法提供统一的数据交换标准。该格式通过模块化的表格结构,标准化了DNA荧光斑点坐标、基因组定位、示踪轨迹及细胞核内微环境信息,从而从根本上确立了开放、可互操作的数据生态,有力推动了空间基因组学领域的可重复性研究。
当前挑战
FOF-CT致力于解决的领域核心问题在于染色质示踪领域的数据异构性与不可复现性。在技术层面,不同实验室采用的技术路线(如ORCA、Hi-M、MINA、MERFISH等)在数据结构和元数据描述上缺乏一致性,使得跨方法、跨研究的集成比较异常繁琐。构建过程中,主要挑战包括:1)如何设计一个既能兼容现有主流球杆模型技术、又具备弹性扩展以支持新兴体积模型示踪数据的格式框架;2)确立核心元数据字段(如硬件配置、基因组坐标、质量指标)并制定严格的机器可读规范,以确保数据在不同平台间的无缝流通与正确解析;3)协调来自全球28个出版物、涵盖多种模式生物(人、小鼠、果蝇、线虫)的212个公开成像数据集,使之符合统一的FOF-CT标准,并成功迁移至4DN数据门户及OME图像数据资源库(IDR),从而实现了FAIR(可发现、可访问、可互操作、可复用)原则的实质性落地。
常用场景
经典使用场景
在三维基因组学领域,4DN FISH Omics Format - Chromatin Tracing (FOF-CT) 数据集最经典的用途在于标准化存储与共享来自多种染色质示踪成像实验的解析结果。该格式专门针对“球棍”型染色质示踪技术而设计,能够以统一的数据结构记录每个荧光斑点(DNA Spot)在显微镜坐标系中的三维坐标、其对应的基因组位置(以BED格式标注)、所属的染色质踪迹(Trace)以及细胞或亚细胞区域的相关信息。通过强制规定核心表格与多个可选表格(如RNA斑点数据、质量指标、物理坐标等)之间的全局唯一标识符链接,FOF-CT 使来自不同实验平台的数据得以无缝整合,从而支持跨研究的比较与二次分析,为构建更大规模、更具整合性的空间基因组学数据集奠定了坚实基础。
实际应用
在实际应用中,FOF-CT 数据集已被广泛采纳于4DN数据门户与OME图像数据资源(IDR)等公共存储库,服务于全球范围内对空间基因组学数据的高效检索、可视化与再分析。依托该格式,研究人员能够利用诸如pyHiM、traceratops及CIMA等专业化计算工具对染色质踪迹进行后处理与质量控制,并在此基础上开发了面向缺失数据填补的算法(如SnapFISH-IMPUTE和ImputeHiFI),以克服多轮杂交实验中固有的检测效率限制。此外,该格式还支持交互式数据探索,通过Nucleome Browser等可视化平台实现跨研究的数据比对与整合,从而加速了从成像原始数据到生物学洞察的转化过程,为染色质构象的机制性研究和预测性建模提供了可靠的数据基础设施。
衍生相关工作
围绕FOF-CT 数据集,衍生了一系列具有里程碑意义的经典研究工作。Jia等人开发了空间基因组比对器,通过对多个球棍型染色质示踪实验数据的再分析,实现了考虑拷贝数变异与非整倍性的染色质踪迹重构。Lee等人构建的SnapFISH计算方法及其后续的SnapFISH-IMPUTE,专注于从不同基因组分辨率的多路复用DNA FISH数据中检测染色质环状结构,并进一步利用跨细胞相似性重建缺失位点。Liefsoens等人提出的Λ-Plot方法则结合谱图分析与神经网络,在单细胞和种群层面实现了对嵌套与复杂染色质环结构的敏感检测。在三维建模领域,多家研究团队利用公开的FOF-CT兼容数据集验证和优化了基于聚合物理念的染色质折叠模型(如Remini等人揭示的微相分离缩放规律)。这些工作不仅拓展了染色质空间组织的认知边界,更充分彰显了标准化数据格式在驱动计算创新中的关键催化作用。
以上内容由遇见数据集搜集并总结生成



