RxRx1
收藏arXiv2023-01-14 更新2024-06-21 收录
下载链接:
https://rxrx.ai
下载链接
链接失效反馈官方服务:
资源简介:
RxRx1数据集是由Recursion公司开发,专门设计用于系统研究批次效应校正方法的生物数据集。该数据集包含125,510张高分辨率荧光显微镜图像,涵盖1,138种基因扰动,分布在51个实验批次和4种细胞类型中。数据集通过视觉检查图像明显展示出显著的批次效应,旨在鼓励开发能够有效校正实验批次效应的方法,并推广至未见的实验批次。RxRx1数据集的应用领域主要集中在生物学领域,特别是在遗传学和药物发现中,旨在解决由于批次效应导致的无效生物学结论问题。
The RxRx1 dataset is a biological dataset developed by Recursion, which is specifically designed to systematically investigate batch effect correction methods. It comprises 125,510 high-resolution fluorescence microscopy images, encompassing 1,138 genetic perturbations across 51 experimental batches and 4 cell types. Visual inspection of the images clearly reveals significant batch effects present in the dataset, with the aim of encouraging the development of approaches that can effectively correct experimental batch effects and generalize to unseen experimental batches. The RxRx1 dataset is primarily utilized in the biological domain, particularly in genetics and drug discovery, to address the issue of spurious biological conclusions induced by batch effects.
提供机构:
Recursion
创建时间:
2023-01-14
搜集汇总
数据集介绍

构建方式
在生物信息学领域,高通量筛选技术常因实验批次差异引入技术噪声,RxRx1数据集为此类研究提供了系统化基准。该数据集构建于Recursion的高通量筛选平台,采用细胞绘画成像协议,通过荧光显微镜捕获了四种人类细胞类型在51个独立实验批次中的125,510张六通道高分辨率图像。每个实验批次间隔至少一周执行,采用384孔板设计,其中内圈308个孔用于实验:一个孔作为阴性对照,30个孔使用阳性对照siRNA,其余277孔则施加1,108种不同的基因扰动siRNA。图像经降采样至1024×1024分辨率后,统一裁剪为中心512×512视野,每个孔提供两个非重叠视野,最终通过质量控制过滤了154张低质量图像,确保了数据的严谨性与一致性。
特点
RxRx1数据集的核心特征在于其系统性设计的批次效应结构。数据集涵盖HUVEC、RPE、HepG2和U2OS四种细胞类型,共包含1,138种遗传扰动类别(包括30种阳性对照和一种阴性对照),每个实验批次均在不同时间执行,从而自然引入了由温度、湿度和试剂浓度等技术变量差异导致的显著批次效应。图像均为六通道荧光显微图像,分别标记细胞核、内质网、肌动蛋白、核仁与细胞质RNA、线粒体以及高尔基体,提供了丰富的亚细胞形态信息。数据集的独特之处在于其元数据完整记录了细胞类型、实验ID、孔板位置及处理类别,为研究批次校正方法提供了清晰的可控变量与评估基础。
使用方法
该数据集主要用于评估实验批次效应校正方法的性能,其核心任务是基于不变风险最小化的遗传扰动分类。研究者需训练分类器以识别图像中的遗传扰动类型,并在未见过的实验批次上进行测试。数据集提供了两种标准数据划分策略:批次分离划分将51个实验批次分为训练集与测试集,以评估模型的跨批次泛化能力;批次分层划分则在所有批次中按类别分层抽样,为模型性能提供上限参考。评估体系包含三个关键指标:扰动分类准确率衡量模型在未见批次上的分类性能;批次泛化度量化模型在分离划分与分层划分上的准确率差异;批次分类准确率则作为探针,评估嵌入表示中批次信息的残留程度。此外,研究可结合自适应批归一化、梯度反转等先进方法,在统一框架下探索批次效应的有效校正策略。
背景与挑战
背景概述
在生物医学成像与高通量筛选领域,实验批次效应是长期困扰数据分析和模型泛化的核心难题。RxRx1数据集由Recursion公司研究团队于2023年正式发布,旨在为系统性研究实验批次效应校正方法提供标准化基准。该数据集包含125,510张高分辨率荧光显微镜图像,涵盖4种人类细胞类型在51个实验批次中1,138种基因扰动下的形态学表现。其设计初衷在于解决高通量筛选中因实验条件细微差异导致的技术变异对生物学结论的干扰,为计算生物学和机器学习领域提供了首个专门针对批次效应校正的大规模图像数据集,推动了领域自适应和迁移学习在生物医学图像分析中的深入应用。
当前挑战
RxRx1数据集所针对的核心领域挑战在于如何从受技术变异严重干扰的高通量显微镜图像中,准确分离出由基因扰动引起的生物学形态特征。这要求模型具备对实验批次间系统性差异的鲁棒性,同时保持对细微形态变化的敏感度。在数据集构建过程中,研究团队面临多重技术挑战:首先,需在严格控制实验变量的前提下,确保51个独立批次间产生可量化且显著的技术变异;其次,需设计合理的元数据结构以精确追踪每个图像的细胞类型、实验批次和基因扰动信息;再者,需建立标准化的图像质量过滤流程,从原始125,564张图像中排除154张不符合质量标准的样本;最后,需设计能够有效评估批次效应校正方法泛化能力的任务框架与评价指标,如批次分离划分策略和批次泛化度量标准。
常用场景
经典使用场景
在生物信息学与计算生物学领域,RxRx1数据集被广泛用于评估和开发实验批次效应校正方法。该数据集包含125,510张高分辨率荧光显微镜图像,涵盖4种人类细胞类型在1,138种遗传扰动下的形态变化,这些图像分布在51个实验批次中,显著呈现批次间技术变异。研究者通常利用该数据集设计分类任务,要求模型在训练集未见的实验批次上准确识别遗传扰动,从而系统检验批次校正算法的泛化能力。
解决学术问题
RxRx1数据集主要解决了高通量筛选实验中批次效应干扰生物学信号解析的核心难题。批次效应源于实验执行中的技术变异,如温度、湿度或试剂浓度差异,这些无关变量常与目标生物学变量相关,导致分析偏差。该数据集通过提供多批次、多细胞类型的标准化图像,使研究人员能够量化批次效应的影响,并开发校正方法以消除技术噪声,从而更可靠地提取与遗传扰动相关的形态表型,提升生物学结论的有效性。
衍生相关工作
基于RxRx1数据集,多项经典研究工作得以衍生,主要集中在领域自适应和迁移学习方向。例如,研究团队比较了自适应批归一化(AdaBN)与梯度反转等方法的性能,发现AdaBN能有效提升模型对未见实验批次的泛化能力。这些工作进一步激发了在自监督学习、弱监督表征学习等领域的探索,为处理复杂生物图像中的批次效应提供了新的算法框架和评估基准。
以上内容由遇见数据集搜集并总结生成



