DLCoalSim-10Mb-v1

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/Larrivhan/DLCoalSim-10Mb-v1

下载链接

链接失效反馈

官方服务：

资源简介：

DLCoalSim-10Mb-v1是一个专门为人口历史推断和有效群体大小Ne(t)预测任务设计的模拟单倍型数据集。该数据集包含22,304个模拟样本，每个样本覆盖10百万碱基对（10 Mb）的基因组区域，并包含64个单倍型。数据被组织成697个分片文件，总数据量为17.94 GiB。数据集存储了经过最小化处理的观测数据，具体包括：位打包编码的单倍型基因型数据、稀疏表示的缺失基因型索引、变异位点的物理位置信息、观测到的重组事件图谱和突变率图谱、按64个时间分箱平均计算的目标变量log10 Ne(t)值，以及每个样本的元数据。每个数据分片（.npz格式）遵循特定的模式，包含样本ID、目标值、变异位置偏移数组、打包的基因型数据、缺失数据索引、序列长度、观测重组位置与速率、观测突变位置与速率等字段。每个分片都配有对应的JSON Lines格式的详细样本元数据文件。此外，数据集根目录还提供了全局的样本元数据表格（CSV和JSON Lines格式）和一个描述数据集整体的清单文件。该数据集旨在为人口遗传学推断方法的研究和评估提供标准化的模拟数据。

DLCoalSim-10Mb-v1 is a simulated haplotype dataset specifically designed for population history inference and effective population size Ne(t) prediction tasks. The dataset contains 22,304 simulated samples, each covering a genomic region of 10 million base pairs (10 Mb) and containing 64 haplotypes. The data is organized into 697 shard files, with a total data volume of 17.94 GiB. The dataset stores minimally processed observed data, including: bit-packed encoded haplotype genotype data, sparsely represented missing genotype indices, physical position information of variant sites, observed recombination event maps and mutation rate maps, target variable log10 Ne(t) values averaged over 64 time bins, and metadata for each sample. Each data shard (in .npz format) follows a specific pattern, containing fields such as sample ID, target values, variant position offset arrays, packed genotype data, missing data indices, sequence length, observed recombination positions and rates, observed mutation positions and rates, etc. Each shard is accompanied by a corresponding detailed sample metadata file in JSON Lines format. Additionally, the dataset root directory provides global sample metadata tables (in CSV and JSON Lines formats) and a manifest file describing the overall dataset. This dataset aims to provide standardized simulated data for research and evaluation of population genetics inference methods.

创建时间：

2026-05-19

原始信息汇总

根据您提供的数据集详情页面内容和README文件，以下是该数据集的详细总结：

数据集概述

DLCoalSim-10Mb-v1 是一个用于人口统计历史推断和有效种群大小（Ne(t)）预测的模拟单倍型数据集。

基本信息

样本数量：22,304 个样本
数据分片：697 个数据分片
每个样本长度：10,000,000 bp（碱基对）
每个样本单倍型数：64 个单倍型
目标时间区间：64 个目标时间区间
存储大小：17.94 GiB（分片文件）

数据内容

数据集包含经过最小化处理的观测数据：

位打包的单倍型（bit-packed haplotypes）
稀疏缺失基因型索引（sparse missing-genotype indices）
变异位点位置（variant positions）
观测到的重组和突变图谱（observed recombination and mutation maps）
区间平均目标 log10 Ne(t)（bin-averaged target log10 Ne(t)）
每个样本的元数据（per-sample metadata）

数据集布局

text DLCoalSim-10Mb-v1/ samples/ # *.npz 分片文件和匹配的 *.jsonl.gz 分片元数据 metadata/ samples.csv # 全局每个样本的元数据表 samples.jsonl.gz # 全局每个样本的元数据，JSON Lines 格式 manifest.json # 数据集清单

分片结构

每个 samples/*.npz 分片包含通过偏移数组编码的参差数组：

sample_id：样本ID
target_log10_ne：目标 log10 Ne(t)
variant_positions_bp, variant_offsets：变异位点位置和偏移
genotype_packed, packed_hap_bytes, n_haplotypes：打包的基因型数据
missing_flat_idx, missing_offsets：缺失基因型索引
sequence_length：序列长度
obs_rec_pos, obs_rec_pos_offsets, obs_rec_rate, obs_rec_rate_offsets：观测重组信息
obs_mut_pos, obs_mut_pos_offsets, obs_mut_rate, obs_mut_rate_offsets：观测突变信息

每个分片有一个匹配的 samples/*.jsonl.gz 文件，包含与 sample_id 顺序一致的每个样本的完整元数据。

搜集汇总

数据集介绍

构建方式

DLCoalSim-10Mb-v1是一个为种群历史推断及有效种群大小预测任务而设计的模拟单倍型数据集。其构建基于精细的群体遗传模拟框架，涵盖22,304个样本，每个样本包含10 Mb的基因组序列及64个单倍型。原始模拟数据经过最小化预处理，存储为二进制压缩的单倍型、缺失基因型稀疏索引、变异位点坐标及可观测的重组与突变图谱。所有数据被划分为697个数据分片（shard），以npz格式存储，并伴随匹配的JSON Lines格式元数据文件，便于高效读取与分布式处理。

使用方法

使用者可通过HuggingFace Datasets库加载数据集分片，并配合配套的加载器代码解析npz文件中的压缩阵列。元数据从JSON Lines文件或全局CSV表中读取，便于按需筛选样本。推荐将64个时间bin的log10 Ne(t)作为回归任务的训练目标，单倍型及变异位置作为输入特征。为实现可复现研究，建议参考仓库外提供的验证工具与基准测试代码，并注意数据分片按样本ID索引以支持随机访问与批量训练。

背景与挑战

背景概述

群体历史推断与有效种群规模（Ne(t)）的预测是群体遗传学与计算生物学领域的核心议题，其精准建模依赖于高质量模拟单倍型数据的支撑。在此背景下，DLCoalSim-10Mb-v1数据集应运而生，由相关研究团队开发并发布，旨在为深度学习方法在群体历史推断中的训练与评估提供标准化的基准资源。该数据集创建于深度学习技术逐渐渗透至群体遗传学分析的时期，核心研究问题聚焦于如何利用大规模模拟数据提升对复杂历史情景下Ne(t)的动态变化捕捉能力。通过整合22,304个样本、每样本10 Mb的精细单倍型及64个目标时间箱，该数据集为相关模型的性能验证与比较提供了丰富的训练样本，从而推动了该领域从传统统计方法向数据驱动范式的转型，对群体遗传学、进化生物学及计算生物学的研究范式产生了重要影响。

当前挑战

该数据集所解决的领域核心挑战在于群体历史推断任务中真实观测数据不足与复杂演化过程难以建模的双重困境。传统方法在解析高频重组、突变异质性及有效种群规模非线性变化时面临显著偏差，而模拟数据集DLCoalSim-10Mb-v1通过参数化遗传图谱与预设历史情景，为深度模型提供了可控且可标记的训练空间，从而弥合了理论模型与真实生物过程之间的鸿沟。在数据集构建过程中，面临的主要挑战包括：如何高效生成大规模且包含缺失基因型、稀疏变异位点等自然观测特征的高保真模拟数据；如何协调多线程模拟与标准化分片存储（697个数据分片）以确保训练批次的一致性；以及如何设计压缩编码方案（如位打包单倍型）以在17.94 GiB的存储约束下保留完整演化信息，同时保证数据加载与处理的可复现性。

常用场景

经典使用场景

在群体遗传学与进化生物学的前沿探索中，DLCoalSim-10Mb-v1数据集凭借其大规模模拟单倍型数据的独特优势，成为推断人口统计历史与预测有效种群大小（Ne(t)）的经典基准。该数据集涵盖22,304个样本，每个样本携带10 Mb的模拟基因组，并包含64个单倍型与64个目标时间区间，为研究群体演化动态提供了高度逼真的模拟环境。研究者常利用该数据集中的位打包单倍型、变异位置及观测重组与突变图谱，结合深度学习或贝叶斯方法，训练模型以从现代基因组中逆向推演古代种群波动，从而验证不同推断算法在复杂历史场景（如瓶颈效应、种群扩张）下的鲁棒性与准确性。

解决学术问题

DLCoalSim-10Mb-v1数据集的核心学术贡献在于解决了群体遗传学中长期存在的两大难题：如何从有限基因组数据中精准估计时间分层的有效种群大小，以及如何高效验证推断方法在高维稀疏数据下的可靠性。该数据集通过提供64个目标时间区间的bin-averaged log10 Ne(t)标签，使研究者能够直接对标真实历史波动，克服了传统方法依赖单点估计或简单模型假设的局限。其包含的稀疏缺失基因型索引与观测突变率图谱，进一步为处理真实测序数据中的缺失信息和复杂突变争议提供了可控的模拟基准。这一数据集的推广显著推动了人口统计历史推断领域的标准化评估，促进了从统计遗传学到机器学习方法的交叉创新。

实际应用

在实际应用中，DLCoalSim-10Mb-v1数据集为保护生物学、农业育种与人类遗传学提供了关键支撑。例如，在濒危物种管理中，可利用基于该数据集训练的Ne(t)预测模型，从低覆盖度基因组数据中快速推断种群近期有效大小，从而指导保育策略的制定。在作物遗传育种领域，该数据集帮助优化现代品种与野生祖先间的历史杂交模型，提升对适应性基因流动的解析能力。此外，在人类群体遗传学中，研究者借助该基准测试新型工具，用于解析迁徙事件与奠基者效应，为理解复杂疾病风险在不同人群中的分布提供演化背景。这些应用均展现了模拟数据从科研基准向产业桥梁转化的巨大潜力。

数据集最近研究