five

RxRx3-core

收藏
arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://huggingface.co/datasets/recursionpharma/rxrx3-core
下载链接
链接失效反馈
官方服务:
资源简介:
RxRx3-core是一个由Recursion公司创建的高通量筛选显微图像数据集,是RxRx3数据集的一个压缩和可访问的子集。该数据集包含736个CRISPR基因敲除和1674种化合物在8个浓度下的222,601个显微图像。数据集经过精心筛选和压缩,便于用于基准测试表示学习模型,同时大幅降低了数据集大小,使其更加易于访问和使用。该数据集旨在推动表示学习方法在高通量筛选数据中的应用,并支持新生物学洞见的发现。

RxRx3-core is a high-throughput screening microscopy image dataset developed by Recursion, serving as a compressed and accessible subset of the full RxRx3 dataset. This dataset contains 222,601 microscopy images derived from 736 CRISPR gene knockouts and 1,674 compounds tested at 8 concentration levels. The dataset has been rigorously screened and compressed to enable benchmarking of representation learning models, while drastically reducing its overall size to greatly improve its accessibility and usability. It is designed to advance the application of representation learning methods in high-throughput screening data, and support the discovery of novel biological insights.
提供机构:
Recursion
创建时间:
2025-03-26
搜集汇总
数据集介绍
main_image_url
构建方式
RxRx3-core数据集是从RxRx3数据集中精心挑选并压缩的子集,旨在为高内涵筛选(HCS)显微镜数据的表示学习提供标准化基准。该数据集通过多步骤处理显著减小了原始数据的体积,包括选择未盲化的实验孔、保留512x512的中心裁剪区域、将图像格式从uint16转换为uint8,并应用JPEG 2000压缩技术。这些步骤使得数据集从原始10TB以上压缩至仅18GB,同时保留了用于零样本药物-靶标相互作用(DTI)预测任务的关键数据。数据集涵盖了736个CRISPR敲除和1,674种化合物在8个浓度下的222,601个显微镜图像,确保了数据的广泛覆盖性和实用性。
特点
RxRx3-core数据集的特点在于其高度的可访问性和标准化设计。数据集不仅体积小巧,便于广泛使用,还包含了丰富的生物扰动数据,如CRISPR敲除和化合物处理,覆盖了多种浓度和重复实验。此外,数据集还提供了预训练的嵌入向量和基准测试代码,支持研究人员快速评估表示学习模型的性能。其独特的压缩处理确保了数据质量不受影响,同时显著降低了存储和计算资源的门槛,为生物医学研究提供了强有力的工具。
使用方法
RxRx3-core数据集的使用方法多样且灵活。研究人员可以通过HuggingFace平台直接加载数据集,或通过Polaris平台访问相关资源。数据集支持多种表示学习方法的评估,包括传统的特征提取工具如CellProfiler,以及基于自监督学习的视觉变换器模型。基准测试任务主要包括扰动信号强度的能量距离计算和零样本DTI预测的余弦相似性分析。通过这些任务,用户可以全面评估模型在捕获生物信号和预测药物-靶标相互作用方面的性能,从而推动高内涵筛选数据的表示学习研究。
背景与挑战
背景概述
RxRx3-core数据集由Recursion公司于2025年推出,旨在解决高内涵筛选(HCS)显微镜数据中药物-靶标相互作用(DTI)预测的标准化基准问题。该数据集是RxRx3的精选子集,包含222,601张显微镜图像,覆盖736个CRISPR敲除和1,674种化合物在8种浓度下的实验数据,体积压缩至18GB以提升研究社区的可访问性。通过提供预训练嵌入和基准代码,RxRx3-core推动了表型筛选领域中表示学习方法的创新,为药物发现提供了新的生物见解。
当前挑战
RxRx3-core面临的挑战主要包括两方面:在领域问题层面,高内涵筛选数据的复杂性和规模使得从中提取有意义的特征成为难题,传统的细胞分割和特征提取方法需要大量资源优化,且难以推广。在构建过程中,原始数据集超过100TB的体积和大量盲法处理的元数据限制了其广泛应用,研究团队通过图像裁剪、格式转换和压缩技术将数据体积大幅减小,同时确保数据质量不损。此外,数据集中基因敲除和化合物处理的多样性也带来了批次效应和技术重复的随机化问题,需要通过高级统计方法进行校正。
常用场景
经典使用场景
RxRx3-core数据集在药物靶点相互作用(DTI)预测领域具有经典应用场景。通过高通量显微镜成像技术,该数据集能够捕捉细胞对遗传和化学扰动的响应,为研究人员提供了一个标准化的平台来评估表示学习模型在零样本DTI预测任务中的性能。数据集中的222,601张显微镜图像覆盖了736个CRISPR敲除和1,674种化合物在8种浓度下的实验数据,为模型训练和验证提供了丰富的样本。
解决学术问题
RxRx3-core数据集解决了高通量筛选(HCS)数据表示学习中的关键学术问题。传统方法依赖复杂的细胞分割和特征提取流程,而该数据集通过提供压缩且标准化的子集(仅18GB),显著降低了大规模HCS数据的访问门槛。此外,数据集还提供了预训练嵌入和基准测试代码,帮助研究人员克服了现有任务(如细胞周期分类或蛋白质定位)无法反映基因组范围关系的局限性。
衍生相关工作
RxRx3-core数据集衍生了一系列经典研究工作,包括基于自监督视觉Transformer的表示学习模型(如Phenom-1和Phenom-2)。这些模型通过掩码自编码器(MAE)架构,直接从像素值中学习特征表示,显著提升了DTI预测的准确性。此外,数据集还推动了基因-基因相互作用预测和细胞表型分析等新任务的探索,为生物医学机器学习领域提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作