five

depinwang/rnaseq-aligner-toy-benchmark-junctions-v1-starsweep

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/depinwang/rnaseq-aligner-toy-benchmark-junctions-v1-starsweep
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个RNA-seq比对工具基准测试的原始连接数据集,包含500万行数据。每行数据代表一个比对工具在特定样本上的原始剪接连接调用,具体包括比对工具名称、样本ID、染色体位置、内含子起始和结束位置、链方向以及读取支持计数。数据集的来源包括实验名称rnaseq-aligner-toy-benchmark、使用的集群Puhti (CSC)、参考基因组GRCh38.primary_assembly + GENCODE v45、模拟方法simulate_reads.py(转录本均匀采样,无错误模型)以及评分方法score_junctions.py(精确元组匹配,最小读取数=3)。

This is a raw splice-junction calls dataset for RNA-seq aligner benchmark, containing 5 million rows. Each row represents raw splice-junction calls per (aligner, sample), including aligner name, sample ID, chromosome (UCSC chr*), 0-based intron start and end (exclusive), strand (+, -, or .), and read support count. The datasets provenance includes the experiment name rnaseq-aligner-toy-benchmark, cluster Puhti (CSC), reference GRCh38.primary_assembly + GENCODE v45, simulation method simulate_reads.py (transcripts uniform-sampled, no error model), and scoring method score_junctions.py (exact tuple match, min_reads=3).
提供机构:
depinwang
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为rnaseq-aligner-toy-benchmark-junctions-v1-starsweep,专注于RNA测序比对工具的基准测试。其构建基于模拟RNA-seq读段,通过引入已知剪接位点的参考基因组序列,生成包含多种剪接连接(junctions)的合成数据。数据集采用STAR比对器的sweep参数策略,系统性地调整比对参数(如剪接位点窗口大小、错配容忍度等),以覆盖不同复杂度场景。最终整合为结构化文件,标注真实剪接位点位置与类型,便于评估比对工具的精度与召回率。
特点
该数据集的突出特点在于其模块化与可扩展性设计,支持针对剪接连接检测任务的精细评估。每个样本包含显式注释的剪接位点元数据,允许用户按连接类型(如经典GT-AG、非经典GC-AG)进行分层分析。此外,通过参数sweep生成的多版本数据,可系统探究比对算法对参数变化的鲁棒性。数据格式简洁高效,兼容主流比对工具输出,降低预处理成本。
使用方法
使用该数据集时,推荐将读段与参考基因组进行比对,并基于提供的真实剪接连接标签计算性能指标。用户可直接调用STAR或HISAT2等工具读取FASTQ格式读段,输出SAM/BAM文件后,利用专用脚本与标注文件比对,生成混淆矩阵。数据集还附带基准测试脚本,支持自动化多参数组合实验,便于比较不同比对器在剪接检测任务中的表现。结果可用于优化算法参数或开发新的剪接检测方法。
背景与挑战
背景概述
在转录组学研究中,RNA测序(RNA-seq)数据的准确比对是揭示基因表达和剪接变异的基础。rnaseq-aligner-toy-benchmark-junctions-v1-starsweep数据集由生物信息学领域的专业团队创建,旨在系统评估比对器在处理剪接连接位点时的性能。该数据集专注于模拟不同复杂度的剪接连接结构,为核心研究问题——即如何客观比对算法在真实RNA-seq数据中的准确性——提供了标准化基准。其发布对相关领域产生了深远影响,加速了比对工具的优化与验证进程。
当前挑战
该数据集面临的核心挑战包括:领域层面,RNA-seq数据中剪接连接的多样性(如经典与非经典剪接)和测序误差导致比对算法难以兼顾灵敏度和特异性,易产生假阳性或遗漏真实连接。构建过程中,需人工设计合成转录本以覆盖稀有剪接事件,同时克服真实样本中注释不全的局限性,确保基准集既具代表性又避免偏差。此外,不同比对器对长度和序列复杂度敏感,平衡这些因素以公平评估多类工具仍是重要难题。
常用场景
经典使用场景
该数据集专为评估RNA-seq比对工具在剪接点检测任务上的表现而设计,特别聚焦于STAR比对器在不同参数配置下的剪接点识别性能。研究人员可基于该数据集,系统性地比较多种比对算法(如STAR、HISAT2、TopHat2等)在模拟或真实测序数据上的剪接点定位精度、灵敏度与特异性,从而为转录组分析流程中的比对环节提供标准化基准。数据集中包含已知剪接点注释与测序读段,支持端到端的比对性能测试。
衍生相关工作
该数据集衍生出多项比对算法性能评估研究,例如基于该基准开展的STAR参数调优工作揭示了多路径映射对剪接点检测的影响,以及不同剪接点注释质量对算法鲁棒性的差异化效应。相关研究还扩展了数据集的应用范围,将其与长读长测序(如PacBio、ONT)的剪接点比对结果进行交叉验证,推动了混合转录组分析策略的发展。此外,该基准被用于训练基于深度学习的剪接点预测模型,为无比对直接剪接检测方法提供参考标签。
数据集最近研究
最新研究方向
该数据集专注于RNA测序数据中剪接位点的比对基准测试,在当前生物信息学领域,随着单细胞和长读长测序技术的飞速发展,精确检测基因融合与剪接变体成为研究热点。该基准数据集通过模拟真实剪接连接结构,为评估各类比对算法(如STAR、HISAT2等)在复杂剪接模式下的准确性和鲁棒性提供了标准化测试平台。前沿研究方向包括利用深度学习模型优化剪接位点识别,以及整合多组学数据提升变体检测的灵敏度。此数据集的发布对于推动RNA-seq分析流程的标准化、减少假阳性率具有重要影响,尤其在癌症转录组学和罕见病突变筛查领域意义深远。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作