dna_noc

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/manhngvu/dna_noc

下载链接

链接失效反馈

官方服务：

资源简介：

NOC_DNA_V2是一个基于PROVEDIt的可重现法医DNA混合物数据集管道项目骨架。该项目旨在构建标准化的供体/样本/标签表，并生成版本化的训练/开发/测试数据集。数据集目录结构包括原始数据（PROVEDIt_1-5-Person CSVs Filtered/UnFiltered）、中间数据（interim/）和已处理数据（processed/）。数据集包含多个CSV和JSON文件，如样本主表（samples_master.csv）、标记表（marker_table.csv）、峰值表（peak_table.csv）以及分割特定的标签和清单文件。该项目还提供了两个论文级别的共享发布版本（rd14-fullref-50_multisplit_v2 和 rd12-fullref-61_multisplit_v2），每个版本包含分割不变表和分割特定标签。数据集适用于法医DNA混合物分析任务，并支持多种建模管道的共享基准测试。

NOC_DNA_V2 is a reproducible forensic DNA mixture dataset pipeline project skeleton based on PROVEDIt. The project aims to build standardized donor/sample/label tables and generate versioned train/dev/test datasets. The dataset directory structure includes raw data (PROVEDIt_1-5-Person CSVs Filtered/UnFiltered), intermediate data (interim/), and processed data (processed/). The dataset contains multiple CSV and JSON files, such as the samples master table (samples_master.csv), marker table (marker_table.csv), peak table (peak_table.csv), and split-specific labels and manifest files. The project also provides two paper-level shared release versions (rd14-fullref-50_multisplit_v2 and rd12-fullref-61_multisplit_v2), each containing split-invariant tables and split-specific labels. The dataset is suitable for forensic DNA mixture analysis tasks and supports shared benchmarking of various modeling pipelines.

创建时间：

2026-05-05

原始信息汇总

根据您提供的数据集详情页面，以下是关于该数据集的清晰概述：

数据集概述：NOC_DNA_V2

项目背景与目标

NOC_DNA_V2 是一个基于 PROVEDIt 数据集构建的、可复现的法医 DNA 混合物数据集管道（pipeline）项目。其核心目标是标准化处理原始 DNA 数据，并生成可用于模型训练和评估的版本化数据集。

数据范围与结构

原始数据：来源于 PROVEDIt 数据集，包含 1-5 人混合物的 CSV 文件（分为筛选和未筛选两类）。
数据目录结构：
- data/PROVEDIt_1-5-Person CSVs Filtered/：筛选后的原始数据
- data/PROVEDIt_1-5-Person CSVs UnFiltered/：未筛选的原始数据
- data/interim/：中间处理数据，包括参考供体表、样本表、标签和清单
- data/processed/：最终处理后的训练/开发/测试快照

工作流程（建议步骤）

在 configs/dataset/ 下配置一个面板（panel）
生成参考供体表至 data/interim/references/
生成样本表至 data/interim/samples/
在 data/interim/manifests/ 中冻结供体划分
生成任务标签至 data/interim/labels/
将处理后的训练/开发/测试快照导出至 data/processed/

基准数据集发布

当前提供的两个基准共享版本：

data/processed/rd14-fullref-50_multisplit_v2/
data/processed/rd12-fullref-61_multisplit_v2/

每个版本包含以下内容：

划分不变表：
- samples_master.csv（样本主表）
- marker_table.csv（标记表）
- peak_table.csv（峰表）
划分特定标签与清单：
- sample_labels_all_splits.csv（所有划分的样本标签）
- splits/<split_id>/sample_labels.csv（特定划分标签）
- splits/<split_id>/split_manifest.json（划分清单）
- splits/<split_id>/leakage_audit.json（泄漏审计）
数据集文档：
- README.md、SCHEMA.md、PROTOCOL.md

项目技术特性

项目结构包含 src/（解析、数据集构建、划分、任务和评估逻辑）、configs/（配置文件）、tests/（测试）和 notebooks/（笔记）等模块
保持冻结基准版本，可跨多个建模管道共享
原始数据未被移动或重命名
通过 src/ 包逐步替代临时脚本

搜集汇总

数据集介绍

构建方式

该数据集基于PROVEDIt原始法医DNA混合物数据构建，通过系统化流水线对数据进行标准化处理。构建流程包括：在data/interim/目录下生成归一化的供体、样本和标签表，随后在data/processed/目录下导出经过版本控制的训练集、验证集和测试集快照。整个流程通过src/目录下的模块化代码实现，解析、数据集构建、划分、任务定义与评估逻辑严格分离，确保了数据处理的透明性与可复现性。

特点

数据集具备多重优势特征。它在保留原始数据完整体貌的前提下，提供了经校验的标准化中间表与最终处理数据集，支持多分裂划分（如rd14-fullref-50_multisplit_v2和rd12-fullref-61_multisplit_v2发布版本）。每个发布版本均包含样本主表、标记物表、峰值表，以及分裂专属的标签、清单、泄漏审计日志等文件，便于研究者进行公平比较与模型评估。

使用方法

使用该数据集时，建议遵循预定义的工作流：首先通过configs/dataset/配置面板，随后生成供体参考表与样本表，接着冻结供体划分清单，生成任务标签，最后导出处理后的训练/验证/测试快照。每个处理版本均附有README.md、SCHEMA.md和PROTOCOL.md文档，提供了详细的字段说明、协议定义与实验配置参考，确保研究者能够快速上手并复现已有基准结果。

背景与挑战

背景概述

法医DNA混合物分析是法医学领域的一项核心挑战，旨在从多个个体贡献的DNA样本中准确解析出各供体的遗传谱。该数据集名为“dna_noc”，基于PROVEDIt数据库构建，由研究人员于近期开发，旨在为DNA混合物分析提供标准化、可复现的基准数据集。其核心研究问题聚焦于在受控实验条件下，通过对不同供体数量（1至5人）的DNA混合物进行高通量测序，建立一套结构化的数据管道，涵盖从原始数据解析、供体/样本/标签表构建到训练/验证/测试集划分的完整流程。该数据集对法医遗传学领域具有重要影响力，为开发和评估DNA混合物解卷积算法提供了统一的数据平台，推动了法医学计算方法的可复现性与可比性发展。

当前挑战

该数据集所解决的领域问题在于法医DNA混合物分析中，现有数据集缺乏标准化构建流程与公开基准，导致算法间难以公平比较。构建过程中面临多重挑战：首先，原始PROVEDIt数据包含过滤与未过滤两种版本，需设计稳健的解析逻辑以保证数据一致性；其次，多供体混合物的供体数量（1至5人）增加了标签生成的复杂性，需精确划分供体与样本对应关系；此外，为防止数据泄露，需在训练/测试集划分时进行严格的泄露审计；最后，数据管道需支持版本化管理，以维护不同论文基准版本的冻结快照，确保跨模型研究的可重复性。

常用场景

经典使用场景

dna_noc数据集专为法医DNA混合物分析研究设计，其核心使用场景涉及从复杂DNA混合物中解析不同供体的基因型信息。该数据集基于PROVEDIt实验平台生成，包含1至5人混合DNA样本的毛细管电泳原始数据，通过标准化处理流程构建了结构化的供体、样本和标签表格。研究者可借助该数据集验证和优化DNA混合物解卷积算法，例如通过峰值高度、等位基因比例等特征训练机器学习模型，以准确推断混合物中个体数量及各供体的DNA贡献比例。数据集提供了多分裂版本的训练、验证和测试划分，支持跨模型管道的一致性基准测试，为法医遗传学领域的混合物分析提供了可复现的研究基础。

实际应用

在实际司法鉴定场景中，dna_noc数据集支撑着从犯罪现场混合斑迹中分离个体DNA信息的关键流程。法医实验室可利用基于该数据集训练的模型自动解析性侵案件中的混合DNA图谱，准确区分受害者和嫌疑人的基因型。该技术还能应用于亲子鉴定中母亲贡献的分离、灾难受害者身份识别等复杂情境。数据集的多供体实验设计模拟了真实案件中常见的2至5人混合样本，使训练出的算法能够处理不同比例（如90:10或70:20:10）的混合情形。此外，标准化数据管道使得不同实验室可以共享基准测试结果，有助于推动法医DNA分析软件的标准化认证，最终提升司法鉴定的一致性和可靠性。

衍生相关工作

围绕dna_noc数据集的构建范式，衍生了一系列推动法医遗传学发展的经典工作。其中最核心的贡献是对开源法医数据集构建流程的系统化设计，包括从原始电泳数据到结构化表格的ETL管道、多分裂数据划分策略以及泄漏审计方案，这些已成为后续研究的事实标准。基于该数据集的基准测试揭示了不同机器学习模型（如随机森林、支持向量机、图神经网络）在混合物解卷积中的性能差异，催生了针对DNA峰高特征表示优化的专用神经网络架构。数据集的冻结核发机制还促进了跨实验室的对比研究，为法医DNA混合物分析从经验判断向数据驱动决策的转型奠定了资源基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集