HopTF

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/pvd232/HopTF

下载链接

链接失效反馈

官方服务：

资源简介：

HopTF Artifacts数据集用于存储HopTF的数据工件、合同和诊断信息。数据集包含多个目录，分别存储合同文档、原始源工件、处理后的数据、实验诊断和可重用输出。主要工件包括蛋白质嵌入矩阵、稀疏CSR TFAtlas H5AD、Borzoi基因座面板令牌化数据等。关键文件涉及嵌入矩阵、掩码、元数据和原始模型权重。数据集使用ESM-C作为主要的蛋白质嵌入家族，并移除了旧的ESM-3工件。数据集的迁移和恢复记录保存在指定的清单文件中，确保数据的可追溯性和完整性。

The HopTF Artifacts dataset is used to store HopTFs data artifacts, contracts, and diagnostic information. The dataset contains multiple directories, storing contract documents, raw source artifacts, processed data, experimental diagnostics, and reusable outputs. Key artifacts include protein embedding matrices, sparse CSR TFAtlas H5AD, Borzoi locus panel tokenized data, etc. Critical files involve embedding matrices, masks, metadata, and raw model weights. The dataset uses ESM-C as the primary protein embedding family and has removed old ESM-3 artifacts. The migration and recovery records of the dataset are saved in designated manifest files to ensure traceability and integrity of the data.

创建时间：

2026-04-16

原始信息汇总

HopTF Artifacts 数据集概述

数据集简介

该数据集存储了 HopTF 项目的数据产物（artifacts）、合约（contracts）和诊断信息（diagnostics），主要用于转录因子（TF）相关的生物信息学分析。

数据集布局

数据集包含以下核心目录结构：

目录	内容说明
`contracts/`	合约文档和产物注册表快照
`raw_sources/`	原始来源产物和来源索引
`processed/`	处理后的 TFAtlas、嵌入、H5AD 和标记产物
`experiments/`	实验诊断、日志和运行记录
`promoted/`	推广的可复用输出
`manifests/20260420/`	迁移清单和文件级溯源信息

主要产物

蛋白质嵌入

processed/protein_embeddings/tf_atlas_morf_isoforms_esmc_600m/：ESM-C 600M MORF 异构体嵌入矩阵、掩码、元数据、词汇表、序列、来源工作簿及复现说明

原始数据来源

raw_sources/joung_tfatlas/published_h5ad/GSE217460_210322_TFAtlas_subsample_raw_csr.h5ad：单一稀疏 CSR TFAtlas H5AD 文件，包含 X = log1p_cp10k 和 layers["counts"] = raw UMI counts

处理后的数据集

processed/borzoi_tokens/chr1_chr11_chr17_chr19_chr22_524kb_full/：Borzoi 基因座面板的标记化数据，覆盖 chr1、chr11、chr17、chr19 和 chr22 的全 524288 bp 窗口
processed/tf_atlas_h5ad/final_210322/：最终 TFAtlas H5AD 分片表面
processed/tf_atlas_zarr_csr/：预排序的 CSR 原始计数缓存
processed/tf_atlas_raw_direct_esmc_600m/：原始直接 TFAtlas ESM-C 600M 比较嵌入产物

蛋白质模型

raw_sources/protein_models/esmc/：ESM-C 300M 和 600M 本地模型快照

其他

raw_sources/joung_tfatlas/：保留的 Joung TFAtlas 原始和已发布来源产物
experiments/：来自线性探针和 AlphaGenome/Hopfield 运行的诊断和日志

关键文件

processed/protein_embeddings/tf_atlas_morf_isoforms_esmc_600m/tf_atlas_morf_isoforms_esmc_600m_mean_non_special.npy
processed/protein_embeddings/tf_atlas_morf_isoforms_esmc_600m/tf_atlas_morf_isoforms_esmc_600m_mean_non_special_mask.npy
processed/protein_embeddings/tf_atlas_morf_isoforms_esmc_600m/tf_atlas_morf_isoforms_esmc_600m_mean_non_special.meta.json
raw_sources/joung_tfatlas/published_h5ad/GSE217460_210322_TFAtlas_subsample_raw_csr.h5ad
raw_sources/protein_models/esmc/esmc-600m-2024-12/data/weights/esmc_600m_2024_12_v0.pth
raw_sources/protein_models/esmc/esmc-300m-2024-12/data/weights/esmc_300m_2024_12_v0.pth

重要说明

ESM-C 是该数据集中活跃使用的蛋白质嵌入模型家族
旧版 ESM-3 产物和快照已被移除
Borzoi 标记面板是基因座库，而非汇总向量
单一 CSR H5AD 是最简化的、与论文对齐的 TFAtlas 运行时表面

数据溯源

迁移和恢复记录存储在 manifests/20260420/ 目录下，包含以下清单文件：

HF_CURRENT_FILE_MANIFEST.json
HF_ARTIFACT_LAYOUT_PLAN.json
HF_FINAL_LAYOUT_VERIFICATION.json
HF_FINAL_MAPPING_COVERAGE.json
RESTORED_PRE_MIGRATION_ARTIFACTS.json
HF_RESTORED_REQUIRED_ARTIFACTS_VERIFICATION.json

搜集汇总

数据集介绍

构建方式

在转录因子研究领域，HopTF数据集通过系统化的数据采集与处理流程构建而成。其核心来源于Joung实验室发布的TFAtlas原始数据，涵盖了单细胞RNA测序的稀疏计数矩阵。数据集进一步整合了ESM-C蛋白质嵌入模型生成的向量表示，并对特定基因组区域进行了Borzoi模型的分词处理。整个构建过程注重数据溯源，通过详细的清单文件记录了从原始资料到最终成品的迁移与验证步骤，确保了数据来源的可靠性与处理流程的透明度。

特点

该数据集的特点在于其多层次、多模态的数据组织架构。它不仅提供了经过标准化的单细胞转录因子表达谱，还包含了由前沿蛋白质语言模型ESM-C衍生的深度语义嵌入。数据以高效的科学数据格式存储，如H5AD和Zarr，便于大规模矩阵操作。此外，数据集特别强调了数据的可复现性，保留了关键的原始模型快照与处理中间产物，为深入研究转录因子的序列-功能关系提供了结构化的资源基础。

使用方法

对于计算生物学研究者而言，HopTF数据集的使用需遵循其清晰的目录结构。用户可从`processed`目录获取可直接用于分析的处理后数据，例如蛋白质嵌入矩阵或TFAtlas的H5AD文件。若需追溯原始数据或进行自定义处理，则可访问`raw_sources`中的相应资源。数据集附带的诊断日志与实验记录位于`experiments`目录，能为模型训练与结果验证提供参考。通过读取`manifests`中的清单文件，用户可以全面理解数据集的版本与来源信息，从而确保研究工作的严谨性。

背景与挑战

背景概述

HopTF数据集作为计算生物学与基因组学领域的重要资源，聚焦于转录因子图谱的构建与分析。该数据集由相关研究团队于近年创建，旨在整合蛋白质嵌入模型与单细胞转录组数据，以解析转录调控的分子机制。其核心研究问题涉及如何利用大规模语言模型如ESM-C对蛋白质序列进行高效表征，并将这些表征与基因组调控元件进行关联，从而推动对基因表达调控网络的系统性理解。该数据集的建立为探索转录因子多样性、亚型功能及其在细胞命运决定中的作用提供了关键数据基础，对功能基因组学与系统生物学领域产生了深远影响。

当前挑战

HopTF数据集所应对的领域挑战在于转录调控的复杂性，包括转录因子与DNA相互作用的动态性、蛋白质亚型的功能特异性以及单细胞水平调控异质性的解析。在构建过程中，数据集面临多重技术挑战：大规模蛋白质嵌入模型如ESM-C的集成与优化需要高效的计算架构；原始单细胞数据的稀疏矩阵处理与标准化对存储与计算资源提出极高要求；不同数据源如Joung TFAtlas与Borzoi基因座面板的整合需确保格式一致性与生物学准确性；此外，数据迁移与版本管理的复杂性也增加了维护与复现的难度。

常用场景

经典使用场景

在计算生物学与基因组学领域，HopTF数据集为转录因子（TF）功能与调控机制的研究提供了关键资源。其经典使用场景集中于整合蛋白质嵌入表示与单细胞转录组数据，例如通过ESM-C 600M模型生成的MORF异构体嵌入矩阵，结合TFAtlas的单细胞RNA测序数据，支持研究人员构建转录因子与基因表达之间的关联模型。这类场景常应用于探索转录因子在细胞类型特异性调控中的动态行为，为理解基因调控网络提供数据驱动的分析基础。

衍生相关工作

围绕HopTF数据集，已衍生出一系列经典研究工作，主要集中在蛋白质语言模型与基因组学的交叉领域。例如，基于ESM-C嵌入的线性探针实验被用于评估转录因子功能预测的准确性；而结合Hopfield网络等方法的AlphaGenome相关探索，则尝试从序列嵌入中推断调控模式。这些工作推动了嵌入表示在调控基因组学中的标准化应用，并为后续的多尺度整合分析提供了方法论参考。

数据集最近研究