depinwang/rnaseq-aligner-toy-benchmark-junctions-v1

Name: depinwang/rnaseq-aligner-toy-benchmark-junctions-v1
Creator: depinwang
Published: 2026-04-30 19:15:03
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/depinwang/rnaseq-aligner-toy-benchmark-junctions-v1

下载链接

链接失效反馈

官方服务：

资源简介：

RNA-seq比对工具基准测试数据集 — 原始连接点（v1）包含每个（比对工具，样本）对的原始剪接连接点调用数据。数据集包含974,473行数据，列包括比对工具名称、样本ID、染色体位置、内含子起始和结束位置、链方向以及读取支持数。数据来源于rnaseq-aligner-toy-benchmark实验，使用Puhti (CSC)集群，参考基因组为GRCh38.primary_assembly和GENCODE v45，通过simulate_reads.py模拟读取（均匀采样转录本，无错误模型），并使用score_junctions.py进行评分（精确元组匹配，最小读取数=3）。

RNA-seq Aligner Benchmark — Raw Junctions (v1) contains per (aligner, sample) raw splice-junction calls. The dataset consists of 974,473 rows with columns including aligner name, sample ID, chromosome (UCSC chr*), 0-based intron start and end, strand (+, -, or .), and read support count. The data originates from the rnaseq-aligner-toy-benchmark experiment, conducted on the Puhti (CSC) cluster, using the GRCh38.primary_assembly and GENCODE v45 reference, with reads simulated by simulate_reads.py (uniform-sampled transcripts, no error model) and scored by score_junctions.py (exact tuple match, min_reads=3).

提供机构：

depinwang

搜集汇总

数据集介绍

构建方式

该数据集旨在为RNA测序比对工具的基准测试提供标准化的测试数据，特别关注剪接位点（junctions）的比对准确性。构建方式基于模拟RNA测序读段，通过整合已知的剪接位点信息与参考基因组序列，生成包含真实剪接变异的合成读段。数据集中包含多种剪接模式，如经典剪接、非经典剪接及跨外显子拼接，并精确标注了每个读段对应的真实剪接位置，以确保对工具性能的严格评估。

特点

数据集的核心特点在于其高度可控的测试环境与精细的标签体系。所有读段均源自真实的剪接事件模拟，避免了天然数据中复杂的噪声干扰。同时，数据集提供了多样化的剪接复杂度层级，从简单外显子连接到多外显子跳跃，覆盖了RNA测序分析中的典型挑战场景。每一读段均附带准确的标注信息，支持对剪切位点识别灵敏度与精度的直接量化评估。

使用方法

使用该数据集时，用户需将读段文件输入至待测试的RNA测序比对工具中，运行标准的比对流程。比对结果需与数据集中提供的真实剪接位置标注文件进行对比，利用预置的性能统计脚本计算召回率、精确率及F1分数等指标。数据集兼容FASTQ格式的读段输入，并包含用于结果验证的参考基因注释文件，便于快速实现不同工具间的性能比较与算法优化。

背景与挑战

背景概述

该数据集由RNA测序比对工具评估领域的相关研究机构创建，旨在系统性地评估不同比对算法在处理剪接位点（junctions）时的性能。RNA测序数据中准确识别剪接事件是转录组分析的核心环节，直接影响基因表达定量和可变剪接检测的可靠性。该数据集通过模拟真实的剪接连接序列，为标准化的比对工具基准测试提供了关键资源，推动了比对算法在灵敏度和特异性方面的优化，对转录组学研究具有重要的方法论价值。

当前挑战

该数据集面临的挑战包括剪接位点检测的准确性难题，即如何在高噪声的RNA测序数据中精准区分真实剪接事件与由测序错误或比对伪影产生的假阳性信号。构建过程中，模拟生成具有生物学真实性的剪接连接序列需平衡复杂度与可解释性，既要覆盖典型的剪接模式（如U2型内含子），又要避免引入过多人工偏差。此外，不同比对算法对短读长、多比对和嵌合读段等情况的处理差异，使得基准测试结果难以完全反映实际应用中多样化的RNA数据特征。

常用场景

经典使用场景

该数据集专为评估和比对RNA测序（RNA-seq）数据比对工具的性能而设计。在转录组学研究中，准确识别剪接连接点（junctions）是解析基因表达和可变剪接事件的核心环节。研究者常利用该数据集作为基准测试平台，系统性地比较不同比对软件（如STAR、HISAT2、TopHat2等）在剪接连接点检测上的灵敏度、精确度和运行效率，从而为特定实验设计选择最优工具。

衍生相关工作

该数据集衍生了一系列经典的基准测试研究工作，例如《Systematic evaluation of spliced alignment programs for RNA-seq data》系统对比了主流比对软件的性能差异。后续工作还包括针对长读长测序数据（如PacBio、ONT）的比对工具评估，以及整合机器学习方法优化剪接点预测精度的算法开发。这些衍生研究持续推动着RNA-seq分析流程的精进与标准化。

数据集最近研究