HUVEC-CMPD

Name: HUVEC-CMPD
Creator: Valence Labs, Montr´eal, Canada; Recursion, Salt Lake City, USA; Ecole Normale Sup´erieure PSL, Paris, France
Published: 2025-05-27 23:15:34
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21317v1

下载链接

链接失效反馈

官方服务：

资源简介：

HUVEC-CMPD数据集包含了13万个细胞涂染和微阵列成像数据，这些数据来源于人脐静脉内皮细胞（HUVEC），涉及1700种化学处理，每种处理有三种浓度。这些数据通过弱配对的方式与130,000个转录组样本相关联，用于训练跨模态知识蒸馏模型，从而增强基因表达数据在形态学特征方面的表现，以促进生物发现和药物开发。

The HUVEC-CMPD dataset comprises 130,000 cell staining and microarray imaging datasets generated from human umbilical vein endothelial cells (HUVECs). It encompasses 1,700 distinct chemical treatments, each tested at three concentration gradients. These imaging data are weakly paired with 130,000 transcriptomic samples, aiming to train cross-modal knowledge distillation models for improving the performance of gene expression data by incorporating morphological features, thereby promoting biological discovery and drug development.

提供机构：

Valence Labs, Montr´eal, Canada; Recursion, Salt Lake City, USA; Ecole Normale Sup´erieure PSL, Paris, France

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

HUVEC-CMPD数据集的构建基于弱配对的多模态学习框架，结合了转录组学和显微镜成像数据。通过将不同模态的样本（共享相同的细胞系和扰动条件）进行对齐，该数据集利用预训练的单模态基础模型和可训练的适配器，实现了跨模态的知识蒸馏。此外，采用了一种名为PEA（Perturbation Embedding Augmentation）的新型数据增强技术，通过随机选择批次校正变换来增强转录组学数据的多样性，同时保留其固有的生物学信息。

特点

HUVEC-CMPD数据集的特点在于其弱配对的多模态结构，涵盖了13万个转录组学样本和2万个显微镜成像样本，覆盖了1,700种化学扰动。数据集通过Semi-Clipped方法实现了跨模态的知识蒸馏，显著提升了转录组学数据的预测能力，同时保持了其可解释性。此外，PEA数据增强技术通过引入生物合理的变异性，进一步增强了数据集的鲁棒性和多样性。

使用方法

HUVEC-CMPD数据集的使用方法包括利用预训练的Phenom-1模型处理显微镜成像数据，以及使用scVI或scGPT等模型处理转录组学数据。通过训练轻量级的MLP适配器，将转录组学数据对齐到显微镜成像数据的嵌入空间。在推理阶段，仅需单模态的转录组学数据即可实现高效的生物关系检索和转录组学解释性评估。数据集的评估任务包括已知生物关系检索和转录组学解释性保持，为复杂生物任务提供了丰富的单模态表示。

背景与挑战

背景概述

HUVEC-CMPD数据集是由Valence Labs、Recursion和École Normale Supérieure PSL等机构的研究团队于2025年创建的跨模态生物数据集，专注于人类脐静脉内皮细胞（HUVEC）在化学扰动下的转录组学和显微形态学特征研究。该数据集包含130,000个转录组样本和20,000个显微图像样本，覆盖1,700种化学物质在三种浓度下的扰动效应。其核心研究问题是通过弱配对跨模态学习，将显微图像的丰富表型特征迁移至更具可解释性的转录组数据中，从而提升单模态推理能力。这一创新框架为药物发现和细胞生物学研究提供了新的多模态分析范式，显著推动了计算生物学领域对细胞响应机制的理解。

当前挑战

HUVEC-CMPD面临的挑战主要体现在两个维度：首先在领域问题层面，需解决转录组数据预测能力弱与显微图像可解释性差的固有矛盾，同时克服生物系统中20,000余基因与海量化合物的复杂互作网络建模难题；其次在构建过程中，实验成本和技术限制导致严格配对的多模态数据稀缺，弱配对样本仅通过细胞系和扰动类型等元数据关联，且不同模态的生物学重复样本存在固有变异性。此外，批量效应校正、跨模态表示对齐，以及在保留转录组生物信息的前提下进行有效数据增强，均是构建过程中需要攻克的关键技术难点。

常用场景

经典使用场景

HUVEC-CMPD数据集在生物医学研究中扮演着重要角色，特别是在细胞转录组学和显微图像分析的交叉领域。该数据集通过整合人类脐静脉内皮细胞（HUVEC）的转录组数据和显微图像数据，为研究者提供了一个独特的平台，用于探索细胞形态特征与基因表达之间的关联。其经典使用场景包括跨模态知识蒸馏，即将显微图像中的形态学特征转化为转录组数据的增强表示，从而提升转录组数据的预测能力和解释性。

解决学术问题

HUVEC-CMPD数据集解决了生物医学研究中的多个关键问题。首先，它通过跨模态知识蒸馏技术，弥补了转录组数据预测能力较弱但解释性强的特点与显微图像数据预测能力强但解释性弱的不足。其次，该数据集提出的Perturbation Embedding Augmentation（PEA）技术有效缓解了生物数据稀缺的问题，通过引入生物信息保留的数据增强方法，显著提升了模型的泛化能力。这些创新为复杂生物系统的多模态研究提供了新的方法论支持。

衍生相关工作

HUVEC-CMPD数据集衍生了一系列重要的研究工作。基于该数据集提出的Semi-Clipped框架已成为跨模态知识蒸馏的标杆方法，被广泛应用于生物医学多模态学习任务。此外，PEA数据增强技术启发了后续多个生物数据增强方法的发展，如MWO和scGFT等。该数据集还促进了显微图像与转录组数据融合的新模型（如Phenom-1和scGPT）的开发，推动了生物表征学习领域的进步。这些衍生工作不仅扩展了数据集的应用范围，也为生物医学研究提供了更多创新工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集