mrl-sample
收藏Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/morrislab/mrl-sample
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是翻译效率的测量指标——平均核糖体负载(MRL)的实验数据集。这是一个大规模并行翻译测定,评估了随机5'UTR序列在eGFP或mCherry报告构建中的翻译影响。对于eGFP实验,还评估了两种替代的RNA生物学。变长5'UTR序列和算法设计的5'UTR子集分别使用了可变长度的5'UTR序列和算法设计的5'UTR。每个实验都进行了两次重复,报告了运行的平均值。
创建时间:
2025-04-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: mrl-sample
- 领域: 生物学、RNA、基因组学
- 许可证: 未知
- 数据集来源: 由Sample等人2019年收集,通过Hugging Face重新分发
数据集配置
数据集包含以下配置:
- egfp
- 数据文件:
mrl-sample-egfp.parquet
- 数据文件:
- mcherry
- 数据文件:
mrl-sample-mcherry.parquet
- 数据文件:
- varying
- 数据文件:
mrl-sample-varying.parquet
- 数据文件:
- designed
- 数据文件:
mrl-sample-designed.parquet
- 数据文件:
数据描述
- Mean Ribosome Load (MRL): 衡量翻译效率的指标
- 实验类型: 大规模并行翻译实验,评估随机5UTR序列在eGFP或mCherry报告基因构建中的翻译影响
- 子集说明:
varying: 使用可变长度的5UTR序列designed: 使用算法设计的5UTRs
- 重复实验: 每个实验进行两次重复,此处报告平均值
数据格式
通用列
target_mrl_{subset-name}_{chemistry}: 序列的平均核糖体负载- eGFP数据集中的RNA生物学类型:
pseudo(假尿苷)、m1pseudo(1-甲基假尿苷)、unmod(未修饰的RNA生物学)
- eGFP数据集中的RNA生物学类型:
cds: 二进制轨道,报告CDS中每个密码子的第一个核苷酸位置splice: 二进制轨道,报告每个外显子3端的位置,指示剪接位点
eGFP特有列
u_start: 二进制轨道,报告5 UTR是否包含上游起始密码子u_oof_start: 二进制轨道,报告5 UTR是否包含框外上游起始密码子kozak_quality: 字符串("strong"、"weak"或"mixed"),表示Kozak序列的强度
数据来源与引用
- 原始论文: Human 5′ UTR design and variant effect prediction from a massively parallel translation assay
- 原始数据集: GSE114002
- BioProject: PRJNA454863
- 引用: Sample, P.J., Wang, B., Reid, D.W. et al. Human 5′ UTR design and variant effect prediction from a massively parallel translation assay. Nat Biotechnol 37, 803–809 (2019). https://doi.org/10.1038/s41587-019-0164-5
相关资源
- mRNABench: GitHub仓库
搜集汇总
数据集介绍

构建方式
在基因组学研究领域,mrl-sample数据集通过大规模并行翻译实验构建而成,旨在评估随机化5'UTR序列对eGFP和mCherry报告基因翻译效率的影响。该数据集包含四个子集:egfp、mcherry、varying和designed,分别采用不同的5'UTR序列设计策略。其中egfp子集还评估了两种替代RNA生物学特性,所有实验均进行两次重复,最终报告平均值以确保数据可靠性。原始数据来自Sample等人2019年的研究,通过Gene Expression Omnibus获取并经过标准化处理。
使用方法
研究人员可通过HuggingFace平台直接加载parquet格式的数据文件,四个配置子集支持针对不同研究需求的灵活选择。使用时应特别注意各子集的列命名规范,如target_mrl_{subset-name}_{chemistry}字段包含不同RNA生物学特性的MRL值。该数据集特别适用于机器学习模型训练,用于预测5'UTR序列变异对翻译效率的影响,也可作为RNA设计算法的基准测试数据。为保障研究可复现性,建议引用原始文献并遵循NCBI GEO的数据使用规范。
背景与挑战
背景概述
mrl-sample数据集由Sample等人于2019年创建,专注于研究人类5'非翻译区(5'UTR)序列对翻译效率的影响。该数据集由Morris实验室开发,通过大规模并行翻译实验,评估了随机化5'UTR序列在eGFP或mCherry报告基因构建中的翻译效果。数据集涵盖了伪尿苷和1-甲基伪尿苷修饰的RNA生物学效应,为理解翻译调控机制提供了重要资源。其研究成果发表在《自然生物技术》期刊,显著推动了合成生物学和基因表达调控领域的发展。
当前挑战
mrl-sample数据集面临的挑战主要包括两个方面。在领域问题层面,准确量化翻译效率并解析5'UTR序列特征对核糖体负载的影响具有复杂性,需要考虑多种RNA修饰和序列变异的相互作用。在构建过程中,实验设计需克服大规模并行测序的技术难题,确保数据的一致性和可重复性。此外,数据标注涉及复杂的生物信息学分析,如Kozak序列强度分类和上游起始密码子识别,这对算法的准确性提出了较高要求。
常用场景
经典使用场景
在分子生物学和基因组学领域,mrl-sample数据集被广泛用于研究5'UTR序列对翻译效率的影响。通过大规模并行翻译实验,该数据集能够精确评估不同5'UTR序列在eGFP或mCherry报告基因构建中的翻译效果,为研究人员提供了丰富的实验数据支持。特别是在研究RNA生物学修饰(如伪尿苷和1-甲基伪尿苷)对翻译效率的影响时,该数据集展现了其独特的价值。
解决学术问题
mrl-sample数据集解决了多个重要的学术研究问题,尤其是在翻译调控机制的研究中。通过分析随机化和算法设计的5'UTR序列,研究人员能够深入理解Kozak序列强度、上游起始密码子以及RNA修饰对翻译效率的具体影响。这些发现不仅填补了翻译调控领域的知识空白,还为后续研究提供了可靠的数据基础,推动了相关领域的发展。
实际应用
在实际应用中,mrl-sample数据集为合成生物学和基因治疗领域提供了重要的参考。例如,在设计高效表达载体时,研究人员可以利用该数据集中的5'UTR序列信息优化翻译效率,从而提高目标蛋白的产量。此外,该数据集还可用于开发预测翻译效率的计算模型,为基因治疗中的mRNA设计提供科学依据。
数据集最近研究
最新研究方向
在基因组学和RNA生物学领域,mrl-sample数据集为研究5'UTR序列对翻译效率的影响提供了宝贵资源。近年来,该数据集被广泛应用于探索翻译调控机制,特别是在优化合成生物学中的基因表达设计方面。研究者们利用该数据集开发了新型算法,用于预测和设计高效的5'UTR序列,以提升mRNA疫苗和治疗性蛋白质的生产效率。此外,该数据集还被用于研究RNA修饰(如伪尿苷和1-甲基伪尿苷)对翻译效率的影响,为mRNA疫苗的优化提供了重要参考。随着合成生物学和基因治疗的快速发展,mrl-sample数据集在推动这些领域的前沿研究中发挥了关键作用。
以上内容由遇见数据集搜集并总结生成



