RNAChallenge

github2022-12-04 更新2024-05-31 收录

下载链接：

https://github.com/cbl-nabi/RNAChallenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于公开数据集，用于通过大规模工具基准测试来分类蛋白质编码和非编码RNA。它是一个具有挑战性的验证数据集，仅包含困难实例，并具有双重目的：1. 作为标准测试数据集，评估工具性能，对于开发更准确、偏差更小的模型以正确注释转录本是必要的。2. 识别转录本误注释问题，通过自动化方法和生物信息学专家识别假阳性和假阴性实例。

This dataset is derived from publicly available datasets and is utilized for classifying protein-coding and non-coding RNAs through large-scale tool benchmarking. It serves as a challenging validation dataset, exclusively comprising difficult instances, and fulfills a dual purpose: 1. As a standard testing dataset, it is essential for evaluating tool performance, which is crucial for developing more accurate and less biased models to correctly annotate transcripts. 2. To identify issues of transcript misannotation, it employs automated methods and bioinformatics experts to discern false positives and false negatives.

创建时间：

2022-10-22

原始信息汇总

RNAChallenge数据集概述

数据集目的

标准测试数据集：用于评估工具性能，帮助开发更准确、无偏差的转录本注释模型。
识别错误注释：通过自动化方法和生物信息学专家识别假阳性和假阴性实例，解决生物学领域中的转录本错误注释问题。

数据集来源

数据收集：包含135个小规模和大规模转录组数据集，覆盖49个物种，涉及动物、植物和真菌界。
数据特征：图示展示了物种的界级覆盖、mRNAs和ncRNAs的比例、数据集的平衡性以及序列长度的分布。

数据集构建

分类决策：通过平均48个模型的分类决策来获得每个实例的分类置信度分数。
数据筛选：过滤掉长度低于特定阈值的序列，并使用CD-HIT工具移除重复序列。
数据组成：包含16,243个mRNAs和11,040个ncRNAs，来自动物、植物和真菌界的物种。

引用信息

参考文献：Dalwinder Singh和Joy Roy, A large-scale benchmark study of tools for the classification of protein-coding and non-coding RNAs, Nucleic Acids Research, gkac1092, 2022.

搜集汇总

数据集介绍

构建方式

RNAChallenge数据集的构建基于对48种模型的分类决策进行平均，以获取每个实例的分类置信度分数。通过设定特定阈值，筛选出低于该阈值的序列，并利用CD-HIT工具去除重复序列，最终构建出该数据集。具体而言，构建过程中采用了最多8个模型的准确分类作为阈值，确保数据集的高质量。该测试集包含16,243条mRNA和11,040条ncRNA，涵盖了动物、植物和真菌界的多个物种。

特点

RNAChallenge数据集的特点在于其专注于具有挑战性的验证实例，旨在解决生物学领域中转录本错误注释的难题。数据集不仅提供了标准测试集以评估工具性能，还通过自动化方法和生物信息学专家的结合，帮助识别假阳性和假阴性实例。此外，数据集覆盖了49个物种的135个转录组数据集，涵盖了动物、植物和真菌界，具有广泛的物种多样性和序列长度分布。

使用方法

RNAChallenge数据集的使用方法主要包括将其作为标准测试集，用于评估RNA分类工具的性能。研究人员可以通过比较不同模型在该数据集上的表现，精确评估工具的准确性和偏差。此外，数据集还可用于识别转录本注释中的错误，帮助改进现有模型的分类能力。使用该数据集时，建议引用相关研究论文，以确保学术规范和数据来源的透明性。

背景与挑战

背景概述

RNAChallenge数据集由Dalwinder Singh和Joy Roy于2022年创建，旨在解决生物学领域中RNA分类的挑战。该数据集来源于公开的转录组数据，涵盖了49个物种的135个数据集，涉及动物、植物和真菌三大界。其主要研究问题在于如何准确区分编码蛋白质的RNA（mRNA）与非编码RNA（ncRNA），这一直是生物信息学中的核心难题。RNAChallenge的推出填补了该领域缺乏标准化测试数据集的空白，为工具性能评估提供了重要参考，并推动了RNA注释模型的优化与改进。

当前挑战

RNAChallenge数据集在解决RNA分类问题时面临多重挑战。首先，RNA序列的复杂性和多样性使得准确区分mRNA与ncRNA极为困难，尤其是在面对高度相似的序列时。其次，数据集的构建过程中，研究人员需要通过48个模型的分类决策来筛选高质量序列，并利用CD-HIT工具去除重复序列，这一过程对计算资源和算法精度提出了极高要求。此外，数据集中的物种覆盖范围广泛，导致数据分布不均，进一步增加了模型训练的难度。这些挑战不仅考验了现有工具的性能，也为未来RNA分类算法的改进指明了方向。

常用场景

经典使用场景

RNAChallenge数据集在生物信息学领域中被广泛用于评估和比较不同RNA分类工具的性能。该数据集特别设计用于处理难以分类的RNA序列实例，为研究人员提供了一个标准化的测试平台，以验证其工具在处理复杂RNA序列时的准确性和鲁棒性。通过这种方式，RNAChallenge数据集成为了开发更精确RNA分类模型的关键资源。

衍生相关工作

RNAChallenge数据集的发布激发了多项相关研究，特别是在RNA序列分类算法的改进和新工具的开发方面。基于该数据集的研究成果已被广泛应用于生物信息学领域，推动了RNA分类技术的进步，并为后续的科学研究提供了坚实的基础。

数据集最近研究