five

Arc Virtual Cell Atlas|细胞生物学数据集|生物信息学数据集

收藏
github2025-03-05 更新2025-02-26 收录
细胞生物学
生物信息学
下载链接:
https://github.com/ArcInstitute/arc-virtual-cell-atlas
下载链接
链接失效反馈
资源简介:
Arc虚拟细胞图谱是一个由高质量、经过审查的开放数据集组成的集合,旨在加速虚拟细胞模型的创建。该图谱包括来自超过3.3亿个细胞(数量还在增长)的观测数据和扰动数据。
创建时间:
2025-02-08
原始信息汇总

Arc Virtual Cell Atlas 数据集概述

数据集简介

  • 名称:Arc Virtual Cell Atlas
  • 性质:高质量、经过整理、开放的数据集集合
  • 目的:加速虚拟细胞模型的创建
  • 数据规模:包含超过3.3亿个细胞的观测和扰动数据(持续增长中)

数据集组成

  1. Tahoe-100M

    • 来源:Tahoe’s (https://www.tahoebio.ai/)
    • 文档:Documentation
  2. scBaseCamp

    • 来源:Arc’s (https://arcinstitute.org/)
    • 特点:由AI代理整理
    • 文档:Documentation

数据来源

  • 初始数据集由Tahoe-100M和Arc的scBaseCamp数据集构成
AI搜集汇总
数据集介绍
main_image_url
构建方式
Arc Virtual Cell Atlas 数据集的构建,是基于高质量、经过严格筛选的开放数据集,旨在加速虚拟细胞模型的创建。该数据集的初步构建采用了Vevo的Tahoe-100数据集与Arc的AI代理筛选的scBaseCamp数据集作为启动框架,进而整合了超过3.3亿个细胞的观测数据与扰动数据,并且数据量仍在持续增长。
使用方法
使用Arc Virtual Cell Atlas数据集,用户需遵循数据集的使用规范与版权声明。数据集的访问与下载可以通过官方提供的文档说明进行,其中包含了Tahoe-100与scBaseCamp两个子数据集的详细使用指南,用户可根据具体需求,选择合适的数据类型进行虚拟细胞模型的构建与研究。
背景与挑战
背景概述
Arc Virtual Cell Atlas乃是一项旨在加速虚拟细胞模型构建的宏大工程,汇集了高质量、经过严格审查的开放数据集。该数据集的创建,受益于Vevo公司的Tahoe-100数据集以及Arc研究所的人工智能代理审核的scBaseCamp数据集的初步启动,包含了超过3.3亿个细胞的观测和扰动数据,并且数据量仍在持续增长。自其问世以来,Arc Virtual Cell Atlas在生物学、细胞学以及计算生物学等领域产生了显著影响,为研究人员提供了一个宝贵的资源,以促进对细胞行为和功能的深入理解。
当前挑战
尽管Arc Virtual Cell Atlas为细胞模型研究提供了强有力的数据支撑,但在其构建过程中亦面临诸多挑战。首先,高质量数据的收集与整合要求严格的标准和精确的技术,以确保数据的准确性和可用性。其次,数据集的持续扩展和维护需要大量的计算资源和人力投入。此外,如何有效地利用这些数据来解决具体生物学问题,如细胞信号转导、代谢途径模拟等,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
在细胞生物学与计算生物学领域,Arc Virtual Cell Atlas 数据集的典型应用场景是支持研究人员构建高质量、精确的虚拟细胞模型。通过整合超过3.3亿个细胞的观测与扰动数据,该数据集为模拟细胞行为提供了一个丰富的信息资源库,从而助力于细胞生理机制的研究。
解决学术问题
该数据集解决了在创建虚拟细胞模型时,因缺乏全面且高质量的数据支持而导致的模型准确性和可靠性问题。它不仅促进了细胞行为的深入理解,而且对于疾病模拟和药物研发等学术研究具有重大意义,极大地推动了相关领域的科研进展。
实际应用
在实际应用中,Arc Virtual Cell Atlas 数据集可被用于生物医学研究,如疾病机理的研究、药物反应的预测,以及个性化医疗方案的制定。此外,它也为教育领域提供了教学资源,帮助学生更好地理解细胞结构与功能。
数据集最近研究
最新研究方向
在细胞生物学领域,Arc Virtual Cell Atlas数据集以其高质量的观测和扰动数据,为构建虚拟细胞模型提供了重要资源。近期研究集中于利用此数据集进行深度学习模型的训练,以实现对细胞行为的精准预测。其研究方向不仅推动了单细胞分析技术的发展,而且对于疾病建模和药物开发等前沿研究领域具有重大影响,成为推动生物医学研究的重要力量。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录

IXI Dataset

IXI数据集包含近600张来自正常健康受试者的MRI图像,包括T1、T2、PD加权图像、MRA图像和扩散加权图像。数据集在Hammersmith医院、Guy’s医院和Institute of Psychiatry使用不同系统进行扫描。

github 收录