rxrx3-core
收藏Hugging Face2024-11-13 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/recursionpharma/rxrx3-core
下载链接
链接失效反馈官方服务:
资源简介:
RxRx3-core数据集是Recursion为研究社区优化的表型组学挑战数据集。它包括来自RxRx3数据集的735个基因敲除和1,674个小分子扰动的标记图像,以及使用OpenPhenom计算的图像嵌入和包含的小分子与基因之间的关联。数据集包含6通道的细胞绘画图像和来自222,601个孔的关联嵌入,但大小不到18Gb,非常适合研究社区使用。
The RxRx3-core dataset is a phenomics challenge dataset optimized by Recursion for the research community. It includes labeled images of 735 gene knockouts and 1,674 small molecule perturbations sourced from the RxRx3 dataset, as well as image embeddings computed using OpenPhenom and the associations between the included small molecules and genes. The dataset contains 6-channel Cell Painting images and associated embeddings from 222,601 wells, with a total size of less than 18 Gb, making it highly suitable for use by the research community.
创建时间:
2024-11-08
原始信息汇总
RxRx3-core 数据集概述
数据集信息
- 特征:
__key__:字符串类型jp2:图像类型
- 分割:
train:包含 1,335,606 个样本,大小为 17,489,993,120.108 字节
- 下载大小:17,390,577,507 字节
- 数据集大小:17,489,993,120.108 字节
数据集配置
- 配置名称:
default- 数据文件路径:
data/train-*
- 数据文件路径:
数据集描述
- RxRx3-core 是一个为研究社区优化的表型学挑战数据集。
- 包含 735 个基因敲除和 1,674 个小分子扰动的标记图像。
- 图像来自 RxRx3 数据集。
- 图像嵌入由 OpenPhenom 计算。
- 数据集包含 6 通道的 Cell Painting 图像和相关的嵌入,来自 222,601 个孔,总大小小于 18GB。
数据加载
-
加载 RxRx3-core 图像数据集: python from datasets import load_dataset rxrx3_core = load_dataset("recursionpharma/rxrx3-core")
-
加载 OpenPhenom 嵌入和元数据: python from huggingface_hub import hf_hub_download import pandas as pd
file_path_metadata = hf_hub_download("recursionpharma/rxrx3-core", filename="metadata_rxrx3_core.csv", repo_type="dataset") file_path_embs = hf_hub_download("recursionpharma/rxrx3-core", filename="OpenPhenom_rxrx3_core_embeddings.parquet", repo_type="dataset")
open_phenom_embeddings = pd.read_parquet(file_path_embs) rxrx3_core_metadata = pd.read_csv(file_path_metadata)
基准测试
- 基准测试代码提供在 EFAAR 基准测试仓库。
搜集汇总
数据集介绍

构建方式
RxRx3-core数据集的构建基于RxRx3数据集,涵盖了735种基因敲除和1,674种小分子扰动的标记图像。这些图像通过OpenPhenom计算得到嵌入表示,并包含了小分子与基因之间的关联信息。数据集包含222,601个孔位的6通道Cell Painting图像及其嵌入表示,整体数据量控制在18Gb以内,确保了其在研究社区中的可访问性。
特点
RxRx3-core数据集的特点在于其高维生物数据的丰富性,特别是6通道Cell Painting图像的应用,能够深入揭示药物作用机制。数据集不仅提供了图像数据,还包含了通过OpenPhenom计算的嵌入表示,这些嵌入表示能够有效捕捉图像的深层特征。此外,数据集还提供了小分子与基因之间的关联信息,为药物作用机制的研究提供了重要线索。
使用方法
使用RxRx3-core数据集时,可以通过`datasets`库加载图像数据,具体操作为`load_dataset('recursionpharma/rxrx3-core')`。对于OpenPhenom嵌入表示和元数据,可以通过`huggingface_hub`库下载相应的文件,并使用`pandas`库进行读取。此外,数据集的使用还提供了基准测试代码,可在EFAAR基准测试仓库中找到,便于研究人员进行模型性能评估和比较。
背景与挑战
背景概述
RxRx3-core数据集由Recursion公司发布,旨在为表型组学研究社区提供一个优化的挑战数据集。该数据集基于RxRx3数据集,包含了735个基因敲除和1,674个小分子扰动的标记图像,以及通过OpenPhenom计算得到的图像嵌入。数据集涵盖了222,601个孔的6通道细胞染色图像及其嵌入,总大小不足18Gb,极大地方便了研究者的使用。表型组学作为高维生物数据的重要组成部分,其研究对于揭示药物作用机制具有重要意义。RxRx3-core的发布为研究社区提供了一个大规模的数据集,推动了浓度-响应关系的研究,并提供了基准模型,加速了这一领域的发展。
当前挑战
RxRx3-core数据集在解决表型组学中的药物作用机制映射问题时,面临的主要挑战包括如何从高维图像数据中提取有效的特征,以及如何建立基因与小分子之间的关联模型。在数据构建过程中,挑战主要来自于大规模图像数据的处理与存储,以及如何确保数据的质量和一致性。此外,如何将复杂的表型组学数据转化为可解释的生物学信息,也是研究者需要克服的重要难题。这些挑战不仅要求先进的计算技术,还需要跨学科的合作与创新。
常用场景
经典使用场景
RxRx3-core数据集在表型组学研究中扮演着关键角色,特别是在药物作用机制的高维数据分析中。该数据集包含了735个基因敲除和1,674个小分子扰动的标记图像,以及通过OpenPhenom计算得到的图像嵌入。这些数据为研究人员提供了一个丰富的资源,用于探索药物浓度与细胞表型之间的复杂关系。
解决学术问题
RxRx3-core数据集解决了表型组学领域中的一个核心问题,即如何高效地映射药物作用机制。通过提供大规模的细胞染色图像及其嵌入,该数据集使得研究人员能够更深入地理解药物浓度对细胞表型的影响,从而推动药物发现和开发进程。
衍生相关工作
RxRx3-core数据集的发布催生了一系列相关研究,特别是在药物作用机制和表型组学分析领域。例如,基于该数据集的EFAAR基准测试代码,为研究人员提供了一个标准化的评估框架,进一步推动了该领域的方法学发展和创新。
以上内容由遇见数据集搜集并总结生成



