HIF-datasets
收藏github2025-07-10 更新2025-07-12 收录
下载链接:
https://github.com/Jpickard1/HIF-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库存储了约200个超图数据集,主要来源于基因富集分析和调控网络数据,以.hif格式存储。数据集可通过HAT Python包或手动下载获取。
This repository hosts approximately 200 hypergraph datasets, which are primarily derived from gene set enrichment analysis and regulatory network data and stored in .hif format. These datasets can be accessed either through the HAT Python package or downloaded manually.
创建时间:
2025-07-08
原始信息汇总
HIF-datasets (Hypergraph Interchange Format) 数据集概述
数据集基本信息
- 格式:
.hif(遵循HIF标准) - 存储结构:
/datasets目录包含各超图数据集的.hif文件/scripts目录包含数据集格式化和处理的脚本
数据集获取方式
-
通过HAT Python包获取: python from HAT import Hypergraph, datasets file_path = datasets.download(<dataset_name>, <download_location>) HG = datasets.load(<dataset_name>)
-
手动下载: 使用下载笔记本
数据集特点
- 大文件处理: 超过50MB的.hif文件会被分割为多个部分
- 自动处理: 使用
datasets.download()或datasets.load()时会自动检测、下载并重组多部分数据集 - 验证机制: 重组后的文件会通过HIF模式验证
当前数据集列表
| 编号 | 数据集名称 | 节点数 | 边数 |
|---|---|---|---|
| 0 | ARCHS4_Cell-lines | 23601 | 125 |
| 1 | COVID-19_Related_Gene_Sets | 16979 | 205 |
| 2 | BioCarta_2016 | 1348 | 237 |
| 3 | CORUM | 2741 | 1658 |
| 4 | CellMarker_2024 | 12642 | 1692 |
| 5 | Aging_Perturbations_from_GEO_down | 16129 | 286 |
| 6 | BioCarta_2015 | 1678 | 239 |
| 7 | Allen_Brain_Atlas_10x_scRNA_2021 | 12361 | 766 |
| 8 | COMPARTMENTS_Experimental_2025 | 5961 | 48 |
| 9 | CCLE_Proteomics_2020 | 11851 | 378 |
| 10 | Achilles_fitness_increase | 4320 | 216 |
| 11 | BioPlanet_2019 | 9813 | 1510 |
| 12 | BioPlex_2017 | 10271 | 3915 |
| 13 | ARCHS4_IDG_Coexp | 20883 | 352 |
| 14 | CellMarker_Augmented_2021 | 14167 | 1097 |
| 15 | ARCHS4_Tissues | 21809 | 108 |
| 16 | COVID-19_Related_Gene_Sets_2021 | 16853 | 478 |
| 17 | Achilles_fitness_decrease | 4271 | 216 |
| 18 | Aging_Perturbations_from_GEO_up | 15309 | 286 |
| 19 | ARCHS4_TFs_Coexp | 25983 | 1724 |
| 20 | BioCarta_2013 | 1295 | 249 |
| 21 | COMPARTMENTS_Curated_2025 | 12865 | 1015 |
| 22 | ARCHS4_Kinases_Coexp | 19612 | 498 |
| 23 | Azimuth_Cell_Types_2021 | 1683 | 341 |
| 24 | Cancer_Cell_Line_Encyclopedia | 15797 | 967 |
| 25 | Azimuth_2023 | 3712 | 1425 |
数据集来源
- 主要来自基因富集分析和调控网络数据
- 当前包含约200个超图数据集
搜集汇总
数据集介绍

构建方式
HIF-datasets作为超图研究领域的重要资源,其构建严格遵循HIF标准格式规范。数据集通过专业生物信息学分析流程,从基因富集分析和调控网络数据中提取原始信息,并转化为结构化的超图表示。技术实现上采用模块化存储方案,超过50MB的大型文件被智能分割为多部分存储,同时配套开发了自动检测、下载和重组功能,确保数据完整性。数据集构建过程中还包含严格的模式验证环节,以保证每份.hif文件均符合HIF模式标准。
使用方法
研究者可通过两种途径使用该数据集:推荐使用专用的HAT(Hypergraph Analysis Toolbox)Python包进行自动化操作,其内置的datasets模块支持直接下载和加载超图数据,并能自动处理多文件合并与验证。对于需要灵活控制的场景,项目提供了Jupyter notebook脚本实现手动下载功能。数据加载后将以Hypergraph对象形式呈现,可直接应用于网络分析、机器学习等下游任务。数据集持续更新扩充的计划,也为长期研究提供了版本迭代保障。
背景与挑战
背景概述
HIF-datasets作为超图研究领域的重要资源,由研究团队基于HIF(Hypergraph Interchange Format)标准构建,旨在推动复杂网络数据的标准化存储与交换。该数据集创建于2023年前后,主要面向基因调控网络和功能富集分析等生物信息学应用场景,收录了约200个涵盖细胞标记物、COVID-19相关基因集等多元主题的超图。其采用模块化的.hif格式存储,通过配套的Hypergraph Analysis Toolbox(HAT)工具链实现高效访问,为复杂系统建模和多维关系分析提供了基准测试平台。
当前挑战
在解决超图结构可比性与可复现性这一核心问题上,数据集面临原始生物数据异质性导致的拓扑结构标准化难题。构建过程中需克服大规模网络分割存储带来的完整性校验挑战,如超过50MB的超图需分块存储并动态重组验证。当前收录的基因富集分析数据存在注释体系不统一现象,且跨研究项目的超图节点命名空间协调仍需完善。数据集扩展时还需平衡生物医学特异性与数学抽象通用性之间的张力,这对标准化格式的兼容性设计提出了更高要求。
常用场景
经典使用场景
在复杂网络分析领域,HIF-datasets以其标准化的超图数据格式,为研究者提供了丰富的基因调控网络和功能富集分析数据。该数据集广泛应用于生物信息学研究中,特别是在基因共表达网络构建和功能模块识别方面,成为探索基因间高阶相互作用的重要工具。通过HIF格式的统一性,研究者能够高效地比较不同生物条件下的网络拓扑结构差异。
解决学术问题
HIF-datasets有效解决了超图分析中数据格式不统一的瓶颈问题,为复杂生物网络的可视化与量化研究提供了标准化解决方案。该数据集特别支持基因功能模块挖掘、疾病相关通路分析等关键科学问题,其涵盖的ARCHS4、BioCarta等系列数据,显著提升了跨平台研究结果的可比性,推动了系统生物学领域的范式转变。
实际应用
在精准医疗实践中,该数据集支撑了肿瘤异质性分析和药物靶点预测等临床应用。例如癌症细胞系百科全书(CCLE)数据被用于识别肿瘤特异性代谢网络,而COVID-19相关基因集则为病毒宿主相互作用研究提供了关键资源。医疗研究人员通过整合这些超图数据,能够更准确地建模疾病发生发展的分子机制。
数据集最近研究
最新研究方向
随着复杂系统研究的深入,超图(Hypergraph)作为一种能够刻画多元关系的高阶网络模型,近年来在生物信息学、社交网络分析等领域展现出独特优势。HIF-datasets作为遵循HIF标准的超图数据集库,其最新研究聚焦于基因调控网络的多尺度建模与动态分析。特别是在COVID-19相关基因集、单细胞转录组(如Allen Brain Atlas数据)等前沿方向,研究者正利用该数据集探索基因模块的协同表达规律与疾病异质性关联。2023年新增的Azimuth细胞类型超图数据,为单细胞注释系统的可解释性研究提供了重要基准。数据集采用的HIF标准化存储方案,有效解决了大规模超图(如超过2万节点的ARCHS4系列)在跨平台分析时的数据兼容性问题,推动了超图学习算法在生物医学领域的标准化应用。
以上内容由遇见数据集搜集并总结生成



