five

tahoebio/Tahoe-100M

收藏
Hugging Face2025-07-23 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/tahoebio/Tahoe-100M
下载链接
链接失效反馈
官方服务:
资源简介:
Tahoe-100M是一个包含超过1亿个单细胞转录组图谱的巨规模单细胞扰动图谱,从50种癌细胞系中提取,并暴露于1100种小分子扰动。使用Vevo Therapeutics的Mosaic高通量平台生成,Tahoe-100M能够在前所未有的规模和分辨率下深入、有意识地探索基因功能、细胞状态和药物反应。此数据集旨在推动下一代细胞生物学人工智能模型的发展,在系统生物学、药物发现和精准医疗领域具有广泛的应用。

Tahoe-100M is a giga-scale single-cell perturbation atlas consisting of over 100 million transcriptomic profiles from 50 cancer cell lines exposed to 1,100 small-molecule perturbations. Generated using Vevo Therapeutics Mosaic high-throughput platform, Tahoe-100M enables deep, context-aware exploration of gene function, cellular states, and drug responses at unprecedented scale and resolution. This dataset is designed to power the development of next-generation AI models of cell biology, offering broad applications across systems biology, drug discovery, and precision medicine.
提供机构:
tahoebio
搜集汇总
数据集介绍
main_image_url
构建方式
Tahoe-100M 数据集由 Vevo Therapeutics 的 Mosaic 高通量平台生成,涵盖了 50 种癌症细胞系在 1,100 种小分子扰动下的超过 1 亿个转录组分析数据。该数据集旨在通过深度、上下文感知的方式探索基因功能、细胞状态和药物反应,为系统生物学、药物发现和精准医疗等领域提供强大的数据支持。
特点
Tahoe-100M 数据集具有以下特点:1) 规模宏大,包含超过 1 亿个转录组分析数据;2) 多元化,涵盖 50 种癌症细胞系和 1,100 种小分子扰动;3) 上下文感知,能够深度探索基因功能、细胞状态和药物反应;4) 应用广泛,适用于系统生物学、药物发现和精准医疗等领域。
使用方法
Tahoe-100M 数据集的使用方法如下:1) 使用 Hugging Face 的 datasets 库加载数据集;2) 使用 streaming 模式进行数据加载,避免下载整个数据集;3) 通过访问 metadata 表获取基因、样本、药物和细胞系等元数据信息;4) 使用提供的教程和社区资源进行数据分析和转换。
背景与挑战
背景概述
在单细胞生物学和药物开发领域,理解基因功能、细胞状态以及药物反应对于推动精准医疗和系统生物学的研究至关重要。Tahoe-100M数据集,由Vevo Therapeutics的Mosaic高通量平台生成,提供了超过一亿个转录组学数据,这些数据来自50种癌细胞系,这些癌细胞系暴露于1100种小分子干扰。该数据集不仅规模巨大,而且分辨率高,使得研究人员能够以空前的深度和上下文意识探索基因功能、细胞状态和药物反应。Tahoe-100M数据集的创建,旨在为开发下一代细胞生物学人工智能模型提供动力,并在系统生物学、药物发现和精准医疗等领域具有广泛的应用。该数据集的生成和发布标志着单细胞研究的新篇章,为全球科研人员提供了宝贵的资源。
当前挑战
尽管Tahoe-100M数据集提供了丰富的数据资源,但其在使用过程中仍面临一些挑战。首先,数据集的规模庞大,对存储和计算资源提出了较高的要求。其次,数据集包含多种类型的数据,如基因表达数据、药物信息、细胞系特征等,如何有效地整合这些数据以揭示生物学过程和药物反应机制,是研究人员需要解决的难题。此外,数据集的深度和复杂性要求研究人员具备相应的生物信息学知识和数据分析技能。为了克服这些挑战,研究人员可能需要开发新的数据分析工具和算法,并建立跨学科的合作,以充分利用Tahoe-100M数据集的潜力。
常用场景
经典使用场景
Tahoe-100M数据集是一个包含超过1亿个单细胞转录组图谱的巨型数据集,涵盖了50种癌症细胞系对1,100种小分子干扰的反应。该数据集由Vevo Therapeutics的Mosaic高通量平台生成,为基因功能、细胞状态和药物反应的深度、上下文感知探索提供了前所未有的规模和分辨率。它被设计用于开发下一代细胞生物学人工智能模型,在系统生物学、药物发现和精准医学等领域具有广泛的应用。
实际应用
Tahoe-100M数据集的实际应用场景包括药物发现和精准医学。它可以帮助研究人员发现新的药物靶点,并开发更有效的治疗方法。此外,该数据集还可以用于研究癌症的发病机制,为癌症的早期诊断和治疗提供重要的信息。
衍生相关工作
Tahoe-100M数据集的衍生相关工作包括开发新的数据分析方法和模型。例如,研究人员可以使用该数据集来开发新的机器学习模型,以预测细胞对药物的反应。此外,该数据集还可以用于开发新的可视化工具,以帮助研究人员更好地理解细胞功能和细胞状态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作