vandijklab/immune-c2s
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vandijklab/immune-c2s
下载链接
链接失效反馈官方服务:
资源简介:
Cell2Sentence是一种将大型语言模型适应于单细胞转录组学的新方法。该方法将单细胞RNA测序数据转换为按表达水平排序的基因名称序列,称为“细胞句子”。该数据集来源于Domínguez等人的免疫组织数据集,并用于训练Pythia-160m模型,该模型能够生成完整的细胞描述。
Cell2Sentence是一种将大型语言模型适应于单细胞转录组学的新方法。该方法将单细胞RNA测序数据转换为按表达水平排序的基因名称序列,称为“细胞句子”。该数据集来源于Domínguez等人的免疫组织数据集,并用于训练Pythia-160m模型,该模型能够生成完整的细胞描述。
提供机构:
vandijklab
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-nd-4.0
- 语言: 英语
- 标签: 生物学, PyTorch, 因果语言模型
- 大小类别: 100K<n<1M
配置
- 默认配置
- 训练集: 路径为
data/train-* - 测试集: 路径为
data/test-* - 验证集: 路径为
data/val-*
- 训练集: 路径为
数据集信息
- 特征:
input_ids: 数据类型为字符串cell_type: 数据类型为字符串
- 分割:
- 训练集: 字节数为 2314316937,样本数为 218732
- 测试集: 字节数为 288846799,样本数为 27388
- 验证集: 字节数为 289505418,样本数为 27382
- 下载大小: 2322876358 字节
- 数据集大小: 2892669154 字节
任务类别
- 文本生成
- 问答



