five

Tahoe-100M

收藏
Hugging Face2025-03-25 更新2025-03-26 收录
下载链接:
https://huggingface.co/datasets/vevotx/Tahoe-100M
下载链接
链接失效反馈
官方服务:
资源简介:
Tahoe-100M是一个兆规模的单细胞扰动图谱,包含来自50种癌症细胞系在1100种小分子扰动下的超过1000万个转录组轮廓。该数据集使用Vevo Therapeutics的Mosaic高通量平台生成,能够支持对基因功能、细胞状态和药物反应的深入、上下文感知的探索,具有前所未有的规模和分辨率。该数据集旨在推动新一代细胞生物学AI模型的开发,适用于系统生物学、药物发现和精确医学的广泛应用。
创建时间:
2025-03-13
搜集汇总
数据集介绍
main_image_url
构建方式
Tahoe-100M数据集作为单细胞转录组学领域的重要资源,其构建过程依托Vevo Therapeutics公司的高通量Mosaic平台完成。研究团队对50种癌细胞系施加了1,100种小分子扰动,通过先进的高通量测序技术捕获了超过1亿个单细胞的转录组图谱。数据采集过程中采用标准化的实验流程和质量控制措施,包括细胞培养、药物处理、单细胞分离及RNA测序等关键步骤。原始测序数据经过严格的质量过滤和标准化处理,最终形成包含基因表达矩阵和多维度元数据的结构化数据集。
使用方法
使用该数据集时,推荐通过HuggingFace的datasets库以流模式加载,避免直接处理庞大的原始文件。核心表达数据可通过load_dataset函数加载expression_data配置,而各类元数据则需分别加载对应的配置名称。分析流程通常从样本筛选开始,利用BARCODE_SUB_LIB_ID等关键字段关联不同维度的元数据表。值得注意的是,基因表达矩阵中的首项为标记符,解析时需特殊处理。数据集提供的Jupyter Notebook教程详细演示了如何整合多表数据进行联合分析,包括基因表达特征提取、药物响应模式识别等典型应用场景。
背景与挑战
背景概述
Tahoe-100M是由Vevo Therapeutics公司基于其Mosaic高通量平台构建的巨型单细胞扰动图谱数据集,发布于2025年。该数据集收录了超过1亿个转录组图谱,涵盖50种癌细胞系在1100种小分子扰动下的反应,为系统生物学、药物发现和精准医疗领域提供了前所未有的规模和分辨率。由Jesse Zhang等研究人员主导的这一项目,旨在通过深度学习模型深入探索基因功能、细胞状态和药物反应的上下文依赖性,推动了细胞生物学研究的前沿。
当前挑战
Tahoe-100M面临的挑战主要体现在两个方面:在领域问题方面,如何准确解析单细胞水平上基因表达与药物扰动之间的复杂关系,尤其是在多细胞系、多药物组合的背景下;在构建过程中,处理和分析超大规模单细胞数据的技术难题,包括数据质量控制、批次效应校正以及高效存储和访问机制的实现。此外,整合多源异构的元数据(如药物分子结构、细胞系遗传背景等)并确保其准确性和一致性,也是构建过程中的重要挑战。
常用场景
经典使用场景
Tahoe-100M作为目前规模最大的单细胞扰动图谱数据集,其经典应用场景聚焦于探索小分子药物对癌细胞转录组的影响机制。通过整合50种癌细胞系在1100种化合物处理下的1亿多个转录组图谱,研究人员能够系统性地分析药物扰动下的基因表达变化模式,揭示不同细胞背景下药物作用的分子机制差异。该数据集特别适合构建细胞状态与药物响应的预测模型,为精准医疗提供数据支撑。
解决学术问题
该数据集有效解决了单细胞生物学研究中的三大关键问题:一是克服了传统实验数据规模限制,实现了跨细胞系、跨药物的系统性比较;二是提供了高分辨率的药物机制注释(MOA),填补了化合物功能注释的空白;三是通过整合细胞系驱动突变信息,为研究基因型-药物敏感性关联提供了理想平台。这些特性使其成为连接基础研究与转化医学的重要桥梁。
实际应用
在药物研发领域,Tahoe-100M支持多种实际应用:通过分析药物敏感性与基因表达特征的关系,加速肿瘤靶点发现;利用单细胞分辨率数据预测药物组合效应,优化联合治疗方案;基于细胞系特异性响应模式,指导临床前模型选择。此外,数据集包含的SMILES分子结构和PubChem ID使其可直接对接计算机辅助药物设计流程。
数据集最近研究
最新研究方向
在单细胞转录组学与药物扰动研究的交叉领域,Tahoe-100M数据集正推动着人工智能驱动的系统生物学革命。该资源整合了1100种小分子化合物对50种癌细胞系的超亿级单细胞转录组响应图谱,为探索基因功能与药物作用机制提供了前所未有的分辨率。当前研究聚焦于多模态深度学习模型的开发,通过整合SMILES分子结构、细胞系驱动突变和精细作用机制标注,预测药物在特定遗传背景下的转录组效应。2024年Nature Methods刊文指出,此类大规模扰动数据将加速肿瘤异质性研究和联合疗法设计,特别是在KRAS突变等难治靶点的药物组合筛选中展现出重要价值。数据集特有的混合球体培养技术数据,也为肿瘤微环境模拟和免疫治疗响应预测提供了独特视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作