rnahl-saluki-human
收藏Hugging Face2025-04-20 更新2025-04-21 收录
下载链接:
https://huggingface.co/datasets/quietflamingo/rnahl-saluki-human
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是mRNABench项目的一部分,包含了人类mRNA半衰期测量数据。这些数据是从39个人类和27个小鼠的全转录组数据集中聚合而来的,本数据集仅包含人类数据。数据经过了预处理,包括对每个基因的半衰期测量值进行平均,并对基因与半衰期的矩阵进行了主成分分析(PCA)。为了减少实验噪声,数据集报告了第一个主成分的值。数据列包括目标值(跨数据集的半衰期测量的第一个PCA成分)、CDS(编码序列中的第一个核苷酸位置的二进制轨迹)和Splice(指示剪接位点的每个外显子3'端的二进制轨迹)。
This dataset is part of the mRNABench project and contains human mRNA half-life measurement data. These data were aggregated from 39 human and 27 mouse whole-transcriptome datasets, while this dataset only includes human-derived data. The data underwent preprocessing, which included averaging the half-life measurement values for each gene and performing principal component analysis (PCA) on the matrix of genes and their corresponding half-lives. To reduce experimental noise, the dataset reports the values of the first principal component. The dataset columns include the target value (the first PCA component of cross-dataset half-life measurements), CDS (binary trajectory of the first nucleotide position in the coding sequence), and Splice (binary trajectory indicating the 3' end of each exon at splice sites).
创建时间:
2025-04-20
搜集汇总
数据集介绍

构建方式
在基因组学研究领域,mRNA半衰期作为衡量转录本稳定性的关键指标,其精确测量对理解基因表达调控机制具有重要意义。本数据集基于39组人类转录组数据,通过整合多源实验数据并采用主成分分析技术,将原始半衰期测量值降维处理,最终以第一主成分作为标准化表征。数据预处理过程严格遵循原始文献方法,包括跨数据集基因水平半衰期均值计算及基因×半衰期矩阵的PCA分析,有效降低了实验噪声干扰。
特点
该数据集创新性地采用PCA降维技术处理异构实验数据,其核心特征体现在三个结构化数据维度:表征转录本稳定性的主成分分值(Target)、密码子起始位点的二进制编码轨迹(CDS)以及外显子3'端剪接位点标记(Splice)。这种多维编码方式既保留了原始实验数据的生物学意义,又通过数学建模提升了数据的可比性和鲁棒性,为研究mRNA降解动力学提供了高信噪比的分析基础。
使用方法
作为mRNABench基准测试体系的重要组成部分,该数据集特别适用于机器学习模型在RNA稳定性预测任务中的训练与验证。研究者可通过Hugging Face平台直接调用预处理后的结构化数据,结合CDS和Splice位点特征构建端到端预测模型。对于计算生物学研究,建议将主成分分值与其他组学数据联合分析,以探索mRNA降解速率与翻译效率、蛋白质丰度等分子表型之间的调控关系。
背景与挑战
背景概述
mRNA半衰期作为衡量mRNA分子降解速率的关键指标,在转录组学研究中具有重要意义。由Agarwal和Kelley于2022年提出的rnahl-saluki-human数据集,整合了39项人类转录组测序数据,通过主成分分析技术提取了反映mRNA稳定性的核心特征。这项由Morris实验室主导的研究,旨在揭示哺乳动物mRNA降解速率的遗传与生化决定因素,为理解基因表达调控机制提供了重要数据支持。数据集采用创造性公共许可协议发布,已成为mRNABench基准测试体系的重要组成部分,推动了计算生物学领域对转录后调控机制的量化研究。
当前挑战
该数据集致力于解决mRNA稳定性预测这一复杂生物学问题,其核心挑战在于如何从多源异构的实验数据中提取可靠的降解速率特征。原始数据整合过程中面临实验条件差异、测量噪声干扰等技术难题,研究者通过主成分分析降维处理有效缓解了数据异质性问题。数据构建阶段需精确标注密码子位置和剪接位点等结构特征,这对生物信息学注释流程提出了严格要求。如何平衡数据规模与质量,确保跨实验平台测量结果的可比性,仍是该领域方法学研究的关键挑战。
常用场景
经典使用场景
在分子生物学领域,mRNA半衰期是调控基因表达的关键参数之一。rnahl-saluki-human数据集通过整合39组人类转录组数据,提供了mRNA降解速率的标准化测量指标。研究者通常利用该数据集的第一主成分值,结合CDS和剪接位点信息,探究转录本稳定性与序列特征之间的关联机制。这种分析模式已成为研究转录后调控的经典范式。
衍生相关工作
基于该数据集衍生的经典研究包括Saluki预测模型的开发,该模型首次实现了从序列特征预测mRNA降解速率的突破。后续工作如mRNABench平台进一步扩展了其在多物种比较分析中的应用。近期研究还利用该数据集训练深度学习模型,成功揭示了非经典调控元件对mRNA稳定性的影响机制。
数据集最近研究
最新研究方向
在基因组学领域,mRNA半衰期作为调控基因表达的关键参数,近年来成为研究热点。rnahl-saluki-human数据集整合了39组人类转录组数据,通过主成分分析降噪处理,为探索mRNA降解机制提供了标准化度量。当前研究主要聚焦于三个方向:基于深度学习的mRNA稳定性预测模型构建、非编码区序列特征对降解速率的影响机制,以及跨物种保守性分析。特别是随着AlphaFold等AI技术在结构生物学中的突破,如何将三维结构特征融入降解速率预测成为新兴交叉研究方向。该数据集作为mRNABench基准测试的重要组成部分,为开发新一代转录组分析工具提供了关键数据支持,推动了精准医疗时代下RNA治疗靶点的发现进程。
以上内容由遇见数据集搜集并总结生成



