Open Human Genome Library (OpenHGL)

github2025-12-23 更新2025-12-24 收录

下载链接：

https://github.com/lh3/OpenHGL

下载链接

链接失效反馈

官方服务：

资源简介：

开放人类基因组库（OpenHGL）是一个高质量的人类基因组从头组装集合，这些数据公开于基因组数据库（如NCBI和CNCB）或来自个别研究论文。它提供了跨数据集的一致命名和统一格式，支持高效的子序列检索和近似字符串搜索。该数据集目前包含579个人类基因组，总计1.7万亿个碱基对。

Open Human Genome Library (OpenHGL) is a high-quality collection of de novo human genome assemblies, with data publicly available in genome databases such as NCBI and CNCB, or sourced from individual research papers. It provides consistent naming conventions and unified formats across datasets, enabling efficient subsequence retrieval and approximate string searching. This dataset currently contains 579 human genomes, totaling 1.7 trillion base pairs.

创建时间：

2025-12-01

原始信息汇总

OpenHGL 数据集概述

数据集简介

OpenHGL（开放人类基因组库）是一个高质量人类从头组装序列的集合，这些序列来源于公共基因组数据库（如NCBI和CNCB）或独立研究论文。该数据集提供跨数据集的一致命名和统一格式，支持高效的子序列检索和近似字符串搜索。数据集当前包含579个人类基因组，总计1.7万亿碱基对。

数据获取

主要来源：数据集可通过AWS S3存储桶 s3://openhgl 获取，并已注册为AWS开放数据。
备用来源：主要数据也存档于Zenodo，但由于空间限制，不包含衍生文件（如静态格式的FM-index），且下载速度较慢。
下载方式：推荐使用AWS命令行工具进行批量下载，也可通过浏览器查找文件链接后使用 wget 或 curl 下载。

数据内容与文件

数据集主要提供AGC格式的基因组序列和ropebwt3格式的FM-index。核心文件包括：

human579.agc：组装序列的AGC归档文件。
human579.fmd：静态ropebwt3格式的BWT（仅AWS提供）。
human579.fmd.ssa：采样后缀数组（仅AWS提供）。
human579.fmd.len.gz：重叠群名称和长度文件。
human579.fmr.gz：动态ropebwt3格式的BWT序列。
human579.fmd.ssa.gz：采样后缀数组（仅Zenodo提供）。
human579.meta.tsv：元数据文件，包含组装名称、性染色体、样本名称、样本性别、SGDP区域代码、1KG群体代码和国家。

数据使用

序列检索

使用AGC工具进行序列检索。需注意AGC使用0起始坐标系统，区间为闭区间，这与 samtools faidx 等常用工具（1起始坐标）不同。

序列匹配搜索

使用ropebwt3工具在FM-index上进行精确或非精确的字符串匹配搜索。

数据描述

数据来源

数据整合自多个公开的高质量人类基因组组装项目，样本选择标准包括：公开可用、要求PacBio HiFi测序精度、要求超长Nanopore读长用于困难区域组装、要求三重奏或Hi-C数据用于染色体尺度分型、独立样本。

来源名称	版本	组装数量	描述
CHM13	2.0	1	包含HG002 chrY和rCRS chrM的分析集
CN1	1.0.1	2	中国汉族
KSA001	1.1.0	2	沙特阿拉伯
I002C	0.7	2	印度
KOREF1	2025	2	韩国
YAO	2.0	2	中国
HPRC	r2-v1.0.1	464	人类泛基因组参考联盟
APR	v1	104	基于阿联酋的阿拉伯泛基因组参考

命名规则

样本名：格式为 ([0-9]{6})_([A-Z0-9]+).(pri|pat|mat|hap1|hap2)。前导数字为重叠群集的唯一标识符，下划线后的字母数字串为样本名。组装更新时，样本名不变但标识符会变。后缀代码指定组装类型：
- pri：主要组装（仅CHM13）
- pat：来自三重奏分型的父系组装，含chrY
- mat：来自三重奏分型的母系组装，含chrX
- hap1：来自Hi-C分型的单倍型1，含chrY（使用yak分区）
- hap2：来自Hi-C分型的单倍型2，含chrX（使用yak分区）
重叠群名：格式为 ([^s#]+)#[012]#([^s#]+)。第一个字段对应样本名，最后一个字段对应重叠群或染色体名。中间的数字表示单倍型：0表示主要组装，1表示父系或单倍型1，2表示母系或单倍型2。

已知问题

HPRC的HG002和CHM13共享相同的Y染色体。
HG00272在X染色体上存在约50Mb的倒位错误组装。
NA20806的X和Y染色体被错误地划分到同一单倍型。
HG02145的Y染色体是碎片化的。

更新日志

4.0：添加了I002C、KOREF1和APR；将YAO更新至v2.0。
3.0：将HPRC组装更新至r2-v1.0.1。

搜集汇总

数据集介绍

构建方式

在人类基因组学领域，数据整合与标准化是推动研究进展的关键环节。OpenHGL的构建过程始于从多个公开数据库与研究论文中系统收集高质量的人类基因组从头组装数据，涵盖了NCBI、CNCB等权威来源。通过严格的样本筛选标准，确保数据具备PacBio HiFi测序的高精度、超长纳米孔读长支持的区域覆盖、以及基于家系或Hi-C数据的染色体级定相验证。随后，采用一致的命名规则与统一格式进行数据整合，并利用yak工具对性染色体进行分区处理，最终形成包含579个基因组、总计1.7万亿碱基对的标准化资源库。

特点

作为一项综合性基因组资源，OpenHGL展现出多方面的技术优势。数据集以AGC压缩格式存储序列，并配套提供基于ropebwt3的FM索引，支持高效的子序列检索与近似字符串搜索。其命名体系遵循严谨的正则表达式规范，能够清晰区分样本标识、组装类型及单倍型信息。此外，数据集不仅包含基因组序列，还附有详细的元数据表，涵盖样本性别、地理区域与人群代码等关键信息，为群体遗传学与比较基因组学研究提供了丰富背景。

使用方法

在基因组数据分析实践中，OpenHGL提供了灵活便捷的访问途径。用户可通过AWS命令行工具或直接下载链接获取数据文件，其中AGC格式档案支持使用专用工具进行序列提取与浏览。对于序列匹配任务，依托ropebwt3构建的FM索引可实现精确与模糊搜索，适用于污染物检测、k-mer计数等多种生物信息学场景。数据集还特别标注了坐标系统的差异，提醒使用者注意AGC采用零基坐标体系，这与常见生物信息工具的一基坐标体系存在区别，确保分析过程的准确性。

背景与挑战

背景概述

人类基因组学研究正经历从单一参考序列向泛基因组范式的深刻转型，旨在更全面地捕捉全球人群的遗传多样性。Open Human Genome Library (OpenHGL) 便是在此背景下应运而生，由研究团队整合公共基因组数据库（如NCBI、CNCB）及独立研究论文中的高质量从头组装数据构建而成。该数据集汇集了579个人类基因组，涵盖1.7万亿碱基对，其核心使命在于提供统一命名与标准化格式，以支持高效的基因组子序列检索与近似字符串搜索，从而为群体遗传学、疾病关联分析和精准医学等前沿领域提供关键数据基础设施。

当前挑战

OpenHGL致力于应对人类泛基因组构建与应用中的核心挑战：在超大规模基因组数据中实现快速、精确的序列匹配与检索，这直接关系到遗传变异检测、序列比对和污染识别等关键任务的效率与准确性。在数据构建层面，挑战尤为显著，包括确保数据来源的公开性与高质量，严格遵循基于PacBio HiFi、超长Nanopore读长、三重奏或Hi-C数据等多项技术标准进行样本筛选；同时，处理不同来源数据的异构性，实现跨数据集的一致化整合，并妥善解决已知的组装问题，如特定样本的染色体错误分区或结构变异误组装，以维持数据集的整体可靠性与科学价值。

常用场景

经典使用场景

在人类基因组学领域，OpenHGL数据集为大规模基因组比对和序列检索提供了标准化框架。其经典使用场景体现在利用集成的AGC格式基因组档案和FM-index索引，支持高效的全基因组序列提取与近似字符串搜索。研究人员可通过统一接口快速获取579个人类基因组的高质量组装序列，并基于ropebwt3工具实现精确或容错的序列匹配，极大简化了跨样本基因组变异的系统性分析流程。

衍生相关工作

围绕OpenHGL数据集，已衍生出多项重要研究工作。例如，基于其集成数据开发的泛基因组构建流程，被广泛应用于人类泛基因组参考联盟（HPRC）等项目；利用其FM-index索引优化的序列搜索算法，促进了高效k-mer计数与变异检测工具的创新。同时，该数据集也为跨人群比较基因组学研究提供了基准，催生了针对特定族群（如阿拉伯、东亚人群）的深度基因组变异图谱构建工作。

数据集最近研究