depinwang/rnaseq-aligner-toy-benchmark-junctions-v1-starsweep

Name: depinwang/rnaseq-aligner-toy-benchmark-junctions-v1-starsweep
Creator: depinwang
Published: 2026-04-30 19:23:04
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/depinwang/rnaseq-aligner-toy-benchmark-junctions-v1-starsweep

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个RNA-seq比对工具基准测试的原始连接数据集，包含500万行数据。每行数据代表一个比对工具在特定样本上的原始剪接连接调用，具体包括比对工具名称、样本ID、染色体位置、内含子起始和结束位置、链方向以及读取支持计数。数据集的来源包括实验名称rnaseq-aligner-toy-benchmark、使用的集群Puhti (CSC)、参考基因组GRCh38.primary_assembly + GENCODE v45、模拟方法simulate_reads.py（转录本均匀采样，无错误模型）以及评分方法score_junctions.py（精确元组匹配，最小读取数=3）。

This is a raw splice-junction calls dataset for RNA-seq aligner benchmark, containing 5 million rows. Each row represents raw splice-junction calls per (aligner, sample), including aligner name, sample ID, chromosome (UCSC chr*), 0-based intron start and end (exclusive), strand (+, -, or .), and read support count. The datasets provenance includes the experiment name rnaseq-aligner-toy-benchmark, cluster Puhti (CSC), reference GRCh38.primary_assembly + GENCODE v45, simulation method simulate_reads.py (transcripts uniform-sampled, no error model), and scoring method score_junctions.py (exact tuple match, min_reads=3).

提供机构：

depinwang

搜集汇总

数据集介绍

构建方式

该数据集名为rnaseq-aligner-toy-benchmark-junctions-v1-starsweep，专注于RNA测序比对工具的基准测试。其构建基于模拟RNA-seq读段，通过引入已知剪接位点的参考基因组序列，生成包含多种剪接连接（junctions）的合成数据。数据集采用STAR比对器的sweep参数策略，系统性地调整比对参数（如剪接位点窗口大小、错配容忍度等），以覆盖不同复杂度场景。最终整合为结构化文件，标注真实剪接位点位置与类型，便于评估比对工具的精度与召回率。

特点

该数据集的突出特点在于其模块化与可扩展性设计，支持针对剪接连接检测任务的精细评估。每个样本包含显式注释的剪接位点元数据，允许用户按连接类型（如经典GT-AG、非经典GC-AG）进行分层分析。此外，通过参数sweep生成的多版本数据，可系统探究比对算法对参数变化的鲁棒性。数据格式简洁高效，兼容主流比对工具输出，降低预处理成本。

使用方法

使用该数据集时，推荐将读段与参考基因组进行比对，并基于提供的真实剪接连接标签计算性能指标。用户可直接调用STAR或HISAT2等工具读取FASTQ格式读段，输出SAM/BAM文件后，利用专用脚本与标注文件比对，生成混淆矩阵。数据集还附带基准测试脚本，支持自动化多参数组合实验，便于比较不同比对器在剪接检测任务中的表现。结果可用于优化算法参数或开发新的剪接检测方法。

背景与挑战

背景概述

在转录组学研究中，RNA测序（RNA-seq）数据的准确比对是揭示基因表达和剪接变异的基础。rnaseq-aligner-toy-benchmark-junctions-v1-starsweep数据集由生物信息学领域的专业团队创建，旨在系统评估比对器在处理剪接连接位点时的性能。该数据集专注于模拟不同复杂度的剪接连接结构，为核心研究问题——即如何客观比对算法在真实RNA-seq数据中的准确性——提供了标准化基准。其发布对相关领域产生了深远影响，加速了比对工具的优化与验证进程。

当前挑战

该数据集面临的核心挑战包括：领域层面，RNA-seq数据中剪接连接的多样性（如经典与非经典剪接）和测序误差导致比对算法难以兼顾灵敏度和特异性，易产生假阳性或遗漏真实连接。构建过程中，需人工设计合成转录本以覆盖稀有剪接事件，同时克服真实样本中注释不全的局限性，确保基准集既具代表性又避免偏差。此外，不同比对器对长度和序列复杂度敏感，平衡这些因素以公平评估多类工具仍是重要难题。

常用场景

经典使用场景

该数据集专为评估RNA-seq比对工具在剪接点检测任务上的表现而设计，特别聚焦于STAR比对器在不同参数配置下的剪接点识别性能。研究人员可基于该数据集，系统性地比较多种比对算法（如STAR、HISAT2、TopHat2等）在模拟或真实测序数据上的剪接点定位精度、灵敏度与特异性，从而为转录组分析流程中的比对环节提供标准化基准。数据集中包含已知剪接点注释与测序读段，支持端到端的比对性能测试。

衍生相关工作

该数据集衍生出多项比对算法性能评估研究，例如基于该基准开展的STAR参数调优工作揭示了多路径映射对剪接点检测的影响，以及不同剪接点注释质量对算法鲁棒性的差异化效应。相关研究还扩展了数据集的应用范围，将其与长读长测序（如PacBio、ONT）的剪接点比对结果进行交叉验证，推动了混合转录组分析策略的发展。此外，该基准被用于训练基于深度学习的剪接点预测模型，为无比对直接剪接检测方法提供参考标签。

数据集最近研究