five

TEDDY

收藏
arXiv2025-03-05 更新2025-03-07 收录
下载链接:
http://arxiv.org/abs/2503.03485v1
下载链接
链接失效反馈
官方服务:
资源简介:
TEDDY数据集是由BCG AI Science Institute和Merck & Co.等机构合作创建的,包含1160万个单细胞,来源于小鼠、人类、空间和分离的单细胞RNA测序数据。该数据集用于训练TEDDY系列基础模型,这些模型采用自监督学习技术,能够从大量未标记数据中学习,并在特定任务上进行微调。数据集涵盖了广泛的疾病、细胞类型、组织类型和捐赠者,为研究疾病机制提供了前所未有的机会。

The TEDDY dataset was collaboratively created by institutions including the BCG AI Science Institute and Merck & Co., Inc. It comprises 11.6 million single cells, derived from single-cell RNA sequencing data of mouse, human, spatial transcriptomic and dissociated samples. This dataset is utilized to train the TEDDY-series foundation models, which leverage self-supervised learning technologies to learn from large-scale unlabeled data and support fine-tuning on specific tasks. The dataset covers a wide range of diseases, cell types, tissue types and donor cohorts, offering unprecedented opportunities for research into disease mechanisms.
提供机构:
BCG AI Science Institute, Boston, USA
创建时间:
2025-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
TEDDY数据集的构建方式是在单细胞RNA测序数据的基础上,通过大规模预训练的方式,利用transformer架构的模型进行学习。该数据集包含了1160万个细胞的数据,是迄今为止最大的单细胞数据集之一。同时,TEDDY数据集还利用了大规模生物学注释作为预训练过程中的监督信号,进一步提高了模型的性能。TEDDY家族的模型包括六个基于transformer的模型,参数量从7000万到4亿不等,可以满足不同规模的应用需求。
特点
TEDDY数据集的特点在于其规模庞大,包含了1160万个细胞的数据,可以提供更全面和更深入的生物学信息。同时,TEDDY数据集还利用了大规模生物学注释作为预训练过程中的监督信号,可以更好地学习生物学特征和属性。此外,TEDDY家族的模型参数量从7000万到4亿不等,可以满足不同规模的应用需求,具有较强的灵活性和可扩展性。
使用方法
TEDDY数据集的使用方法主要包括下游任务的应用和模型性能的评估。在下游任务的应用方面,TEDDY数据集可以用于疾病状态的识别、健康细胞和疾病细胞的区分等任务。在模型性能的评估方面,TEDDY数据集可以用于评估模型在不同规模和不同类型的数据上的性能,以及模型对不同生物学特征的学习能力。
背景与挑战
背景概述
TEDDY数据集的创建旨在深入理解单细胞生物学,特别是疾病生物学。该数据集由BCG AI科学研究所、默克公司和MSD(英国)有限公司的研究人员共同开发,于2025年3月发布。TEDDY数据集的核心研究问题是利用大规模的单细胞RNA测序数据,通过人工智能技术分析基因调控网络,为疾病生物学研究提供新的工具。该数据集的创建对疾病生物学领域产生了深远的影响,为药物发现和精准医疗提供了新的可能性。
当前挑战
TEDDY数据集面临的挑战主要包括:1) 如何有效地利用大规模的生物注释作为监督信号,以改进单细胞转录组学基础模型的学习效果;2) 如何进一步扩大预训练数据集的规模,以提高模型对未见过疾病状态的泛化能力;3) 如何将TEDDY模型扩展到其他生物信息学领域,如基因调控网络的推断和多组学信息的整合。
常用场景
经典使用场景
TEDDY数据集是一个用于理解单细胞生物学的系列基础模型,它通过预训练的方式,使得模型能够吸收和学习大量的单细胞数据,从而在下游的应用中提高性能。该数据集包含了来自小鼠、人类、空间和解离的单细胞RNA测序数据,共计1.16亿个细胞。TEDDY家族的模型包括六个基于Transformer的模型,参数量从7000万到4亿不等。该数据集主要用于下游的两个评估任务:识别训练过程中未见的捐赠者的潜在疾病状态,以及区分健康细胞和患病细胞。
衍生相关工作
TEDDY数据集的提出和应用,衍生出了一系列相关的经典工作。例如,TEDDY模型的设计和训练方法被其他研究者所借鉴,用于构建和训练新的基础模型。此外,TEDDY模型在下游任务中的应用,也推动了单细胞数据分析技术的发展,为理解和治疗疾病提供了新的思路和方法。
数据集最近研究
最新研究方向
TEDDY数据集是针对单细胞RNA测序数据开发的一系列基础模型,旨在理解疾病生物学。该数据集的最新研究方向主要集中在两个方面:一是扩大预训练数据集的规模,二是利用大规模生物注释作为预训练过程中的监督信号。通过这两项改进,TEDDY模型在理解疾病生物学方面取得了显著的进展,并在下游任务中表现出了更好的性能。此外,TEDDY模型还探索了如何利用现有生物知识,以及如何将其他互补模态的数据整合到模型中,以更好地代表单细胞生物学的复杂性。
相关研究论文
  • 1
    TEDDY: A Family Of Foundation Models For Understanding Single Cell BiologyBCG AI Science Institute, Boston, USA · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作