geo_0_2k_cellxgene_0_2k_pairs

Hugging Face2025-02-17 更新2025-02-18 收录

下载链接：

https://huggingface.co/datasets/jo-mengr/geo_0_2k_cellxgene_0_2k_pairs

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含RNA测序数据和文本描述的多模态成对数据集，可用于训练多模态模型，并使用sentence-transformers框架对转录组和文本进行对齐。

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

该数据集geo_0_2k_cellxgene_0_2k_pairs的构建，是基于RNA测序数据与文本描述的配对，其中RNA测序数据源于CellWhisperer项目，并从CellxGene和GEO数据库中衍生而来。数据经过细致的收集与注释，并通过adata_hf_datasets Python包进行处理与转换，形成可供Hugging Face平台使用的格式。构建过程中，利用了多种嵌入方法，如hvg、pca、scvi和geneformer，为下游模型训练或推理提供了多样化的输入选择。

特点

此数据集的特点在于其多模态特性，结合了RNA测序数据与文本描述，适用于训练能够对转录组和文本模态进行对齐的多模态模型。数据集采用MIT许可证发布，包含了预计算的嵌入向量，这些向量是通过不同的嵌入方法生成的，存储在nextcloud上，并通过分享链接提供下载。此外，数据集的构建旨在支持zero-shot分类任务，扩展了其应用范围。

使用方法

使用该数据集时，用户可借助Python的datasets库加载数据。数据集中的anndata引用是一个包含远程存储anndata对象分享链接的json字符串。用户可通过获取该分享链接，将数据集内容下载至本地，进而利用其中的RNA测序数据与文本描述进行多模态模型训练。同时，数据集还提供了预计算的嵌入向量，方便用户直接用于模型输入，简化了数据处理流程。

背景与挑战

背景概述

geo_0_2k_cellxgene_0_2k_pairs数据集，是由CellWhisperer项目所收集和注释的RNA测序数据及文本描述组成的配对数据集。其创建旨在推动转录组与文本模态的对齐研究，该数据集的构建始于生物信息学研究领域，由Moritz Schaefer等研究人员在CellWhisperer项目中完成。该数据集的成立时间为近期，其通过整合CellxGene与GEO数据库的数据，为单细胞RNA测序数据的探索、分析与建模提供了一个可扩展的平台。数据集的发布对于单细胞生物学领域的研究具有重要意义，促进了转录组数据与自然语言处理技术的结合，增强了数据的多模态分析能力。

当前挑战

在构建geo_0_2k_cellxgene_0_2k_pairs数据集的过程中，研究人员面临了多个挑战。首先，数据的整合与注释需要高度的专业知识，确保数据的准确性与一致性。其次，数据的多模态特性要求在处理与存储上采用创新的方法，例如通过anndata_hf_datasets包将anndata对象转换为Hugging Face数据集格式。此外，为了支持下游模型的训练与推理，数据集提供了多种嵌入方法的初始嵌入，如hvg、pca、scvi和geneformer等，每种方法都需要确保其嵌入的质量与适用性。在研究领域问题方面，该数据集旨在解决如何将转录组数据与文本信息相结合的问题，以便更好地理解生物学过程与疾病机制，这本身就是一个极具挑战性的任务，需要发展新的算法与模型来实现有效的数据融合与解释。

常用场景

经典使用场景

在生物信息学领域，该数据集的经典使用场景是进行多模态学习，以整合RNA测序数据与文本描述，进而实现转录组数据的深度探索和交互式分析。通过利用sentence-transformers框架，研究者能够将转录组与文本模态对齐，构建能够处理复杂数据关系的模型。

解决学术问题

该数据集解决了单细胞RNA测序数据维度高、异质性强的分析难题。它不仅为研究者在单细胞层面提供了丰富的表达谱信息，还通过文本注释的整合，使得数据集在生物学功能的解释上更加深入，促进了生物信息学领域中的知识发现和学术研究。

衍生相关工作

基于该数据集，已经衍生出一系列相关工作，包括但不限于CellWhisperer项目，该项目通过多模态学习转录组和文本，实现了与自然语言交互的单细胞RNA-seq数据分析工具，为生物信息学研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集