TEDDY

Name: TEDDY
Creator: BCG AI Science Institute, Boston, USA
Published: 2025-03-05 21:24:57
License: 暂无描述

arXiv2025-03-05 更新2025-03-07 收录

下载链接：

http://arxiv.org/abs/2503.03485v1

下载链接

链接失效反馈

官方服务：

资源简介：

TEDDY数据集是由BCG AI Science Institute和Merck & Co.等机构合作创建的，包含1160万个单细胞，来源于小鼠、人类、空间和分离的单细胞RNA测序数据。该数据集用于训练TEDDY系列基础模型，这些模型采用自监督学习技术，能够从大量未标记数据中学习，并在特定任务上进行微调。数据集涵盖了广泛的疾病、细胞类型、组织类型和捐赠者，为研究疾病机制提供了前所未有的机会。

The TEDDY dataset was collaboratively created by institutions including the BCG AI Science Institute and Merck & Co., Inc. It comprises 11.6 million single cells, derived from single-cell RNA sequencing data of mouse, human, spatial transcriptomic and dissociated samples. This dataset is utilized to train the TEDDY-series foundation models, which leverage self-supervised learning technologies to learn from large-scale unlabeled data and support fine-tuning on specific tasks. The dataset covers a wide range of diseases, cell types, tissue types and donor cohorts, offering unprecedented opportunities for research into disease mechanisms.

提供机构：

BCG AI Science Institute, Boston, USA

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

TEDDY数据集的构建方式是在单细胞RNA测序数据的基础上，通过大规模预训练的方式，利用transformer架构的模型进行学习。该数据集包含了1160万个细胞的数据，是迄今为止最大的单细胞数据集之一。同时，TEDDY数据集还利用了大规模生物学注释作为预训练过程中的监督信号，进一步提高了模型的性能。TEDDY家族的模型包括六个基于transformer的模型，参数量从7000万到4亿不等，可以满足不同规模的应用需求。

特点

TEDDY数据集的特点在于其规模庞大，包含了1160万个细胞的数据，可以提供更全面和更深入的生物学信息。同时，TEDDY数据集还利用了大规模生物学注释作为预训练过程中的监督信号，可以更好地学习生物学特征和属性。此外，TEDDY家族的模型参数量从7000万到4亿不等，可以满足不同规模的应用需求，具有较强的灵活性和可扩展性。

使用方法

TEDDY数据集的使用方法主要包括下游任务的应用和模型性能的评估。在下游任务的应用方面，TEDDY数据集可以用于疾病状态的识别、健康细胞和疾病细胞的区分等任务。在模型性能的评估方面，TEDDY数据集可以用于评估模型在不同规模和不同类型的数据上的性能，以及模型对不同生物学特征的学习能力。

背景与挑战

背景概述

TEDDY数据集的创建旨在深入理解单细胞生物学，特别是疾病生物学。该数据集由BCG AI科学研究所、默克公司和MSD（英国）有限公司的研究人员共同开发，于2025年3月发布。TEDDY数据集的核心研究问题是利用大规模的单细胞RNA测序数据，通过人工智能技术分析基因调控网络，为疾病生物学研究提供新的工具。该数据集的创建对疾病生物学领域产生了深远的影响，为药物发现和精准医疗提供了新的可能性。

当前挑战

TEDDY数据集面临的挑战主要包括：1) 如何有效地利用大规模的生物注释作为监督信号，以改进单细胞转录组学基础模型的学习效果；2) 如何进一步扩大预训练数据集的规模，以提高模型对未见过疾病状态的泛化能力；3) 如何将TEDDY模型扩展到其他生物信息学领域，如基因调控网络的推断和多组学信息的整合。

常用场景

经典使用场景

TEDDY数据集是一个用于理解单细胞生物学的系列基础模型，它通过预训练的方式，使得模型能够吸收和学习大量的单细胞数据，从而在下游的应用中提高性能。该数据集包含了来自小鼠、人类、空间和解离的单细胞RNA测序数据，共计1.16亿个细胞。TEDDY家族的模型包括六个基于Transformer的模型，参数量从7000万到4亿不等。该数据集主要用于下游的两个评估任务：识别训练过程中未见的捐赠者的潜在疾病状态，以及区分健康细胞和患病细胞。

衍生相关工作

TEDDY数据集的提出和应用，衍生出了一系列相关的经典工作。例如，TEDDY模型的设计和训练方法被其他研究者所借鉴，用于构建和训练新的基础模型。此外，TEDDY模型在下游任务中的应用，也推动了单细胞数据分析技术的发展，为理解和治疗疾病提供了新的思路和方法。

数据集最近研究