mrl-sample

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/morrislab/mrl-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是翻译效率的测量指标——平均核糖体负载（MRL）的实验数据集。这是一个大规模并行翻译测定，评估了随机5'UTR序列在eGFP或mCherry报告构建中的翻译影响。对于eGFP实验，还评估了两种替代的RNA生物学。变长5'UTR序列和算法设计的5'UTR子集分别使用了可变长度的5'UTR序列和算法设计的5'UTR。每个实验都进行了两次重复，报告了运行的平均值。

创建时间：

2025-04-20

原始信息汇总

数据集概述

基本信息

数据集名称: mrl-sample
领域: 生物学、RNA、基因组学
许可证: 未知
数据集来源: 由Sample等人2019年收集，通过Hugging Face重新分发

数据集配置

数据集包含以下配置：

egfp
- 数据文件: mrl-sample-egfp.parquet
mcherry
- 数据文件: mrl-sample-mcherry.parquet
varying
- 数据文件: mrl-sample-varying.parquet
designed
- 数据文件: mrl-sample-designed.parquet

数据描述

Mean Ribosome Load (MRL): 衡量翻译效率的指标
实验类型: 大规模并行翻译实验，评估随机5UTR序列在eGFP或mCherry报告基因构建中的翻译影响
子集说明:
- varying: 使用可变长度的5UTR序列
- designed: 使用算法设计的5UTRs
重复实验: 每个实验进行两次重复，此处报告平均值

数据格式

通用列

target_mrl_{subset-name}_{chemistry}: 序列的平均核糖体负载
- eGFP数据集中的RNA生物学类型: pseudo（假尿苷）、m1pseudo（1-甲基假尿苷）、unmod（未修饰的RNA生物学）
cds: 二进制轨道，报告CDS中每个密码子的第一个核苷酸位置
splice: 二进制轨道，报告每个外显子3端的位置，指示剪接位点

eGFP特有列

u_start: 二进制轨道，报告5 UTR是否包含上游起始密码子
u_oof_start: 二进制轨道，报告5 UTR是否包含框外上游起始密码子
kozak_quality: 字符串（"strong"、"weak"或"mixed"），表示Kozak序列的强度

数据来源与引用

原始论文: Human 5′ UTR design and variant effect prediction from a massively parallel translation assay
原始数据集: GSE114002
BioProject: PRJNA454863
引用: Sample, P.J., Wang, B., Reid, D.W. et al. Human 5′ UTR design and variant effect prediction from a massively parallel translation assay. Nat Biotechnol 37, 803–809 (2019). https://doi.org/10.1038/s41587-019-0164-5

相关资源

mRNABench: GitHub仓库

搜集汇总

数据集介绍

构建方式

在基因组学研究领域，mrl-sample数据集通过大规模并行翻译实验构建而成，旨在评估随机化5'UTR序列对eGFP和mCherry报告基因翻译效率的影响。该数据集包含四个子集：egfp、mcherry、varying和designed，分别采用不同的5'UTR序列设计策略。其中egfp子集还评估了两种替代RNA生物学特性，所有实验均进行两次重复，最终报告平均值以确保数据可靠性。原始数据来自Sample等人2019年的研究，通过Gene Expression Omnibus获取并经过标准化处理。

使用方法

研究人员可通过HuggingFace平台直接加载parquet格式的数据文件，四个配置子集支持针对不同研究需求的灵活选择。使用时应特别注意各子集的列命名规范，如target_mrl_{subset-name}_{chemistry}字段包含不同RNA生物学特性的MRL值。该数据集特别适用于机器学习模型训练，用于预测5'UTR序列变异对翻译效率的影响，也可作为RNA设计算法的基准测试数据。为保障研究可复现性，建议引用原始文献并遵循NCBI GEO的数据使用规范。

背景与挑战

背景概述

mrl-sample数据集由Sample等人于2019年创建，专注于研究人类5'非翻译区（5'UTR）序列对翻译效率的影响。该数据集由Morris实验室开发，通过大规模并行翻译实验，评估了随机化5'UTR序列在eGFP或mCherry报告基因构建中的翻译效果。数据集涵盖了伪尿苷和1-甲基伪尿苷修饰的RNA生物学效应，为理解翻译调控机制提供了重要资源。其研究成果发表在《自然生物技术》期刊，显著推动了合成生物学和基因表达调控领域的发展。

当前挑战

mrl-sample数据集面临的挑战主要包括两个方面。在领域问题层面，准确量化翻译效率并解析5'UTR序列特征对核糖体负载的影响具有复杂性，需要考虑多种RNA修饰和序列变异的相互作用。在构建过程中，实验设计需克服大规模并行测序的技术难题，确保数据的一致性和可重复性。此外，数据标注涉及复杂的生物信息学分析，如Kozak序列强度分类和上游起始密码子识别，这对算法的准确性提出了较高要求。

常用场景

经典使用场景

在分子生物学和基因组学领域，mrl-sample数据集被广泛用于研究5'UTR序列对翻译效率的影响。通过大规模并行翻译实验，该数据集能够精确评估不同5'UTR序列在eGFP或mCherry报告基因构建中的翻译效果，为研究人员提供了丰富的实验数据支持。特别是在研究RNA生物学修饰（如伪尿苷和1-甲基伪尿苷）对翻译效率的影响时，该数据集展现了其独特的价值。

解决学术问题

mrl-sample数据集解决了多个重要的学术研究问题，尤其是在翻译调控机制的研究中。通过分析随机化和算法设计的5'UTR序列，研究人员能够深入理解Kozak序列强度、上游起始密码子以及RNA修饰对翻译效率的具体影响。这些发现不仅填补了翻译调控领域的知识空白，还为后续研究提供了可靠的数据基础，推动了相关领域的发展。

实际应用

在实际应用中，mrl-sample数据集为合成生物学和基因治疗领域提供了重要的参考。例如，在设计高效表达载体时，研究人员可以利用该数据集中的5'UTR序列信息优化翻译效率，从而提高目标蛋白的产量。此外，该数据集还可用于开发预测翻译效率的计算模型，为基因治疗中的mRNA设计提供科学依据。

数据集最近研究