MisLocus
收藏MisLocus 数据集概述
基本信息
- 数据集名称: MisLocus — Single-Cell Crops for Variant Mislocalization Benchmarking
- 许可证: CC-BY-4.0
- 数据规模: 1M < n < 10M(约 333 万个细胞)
- 标签: biology, cell-imaging, variant-effect, benchmark
- 来源: 公共 Cell Painting Gallery(cpg0020-varchamp)中的 U2OS 细胞成像数据
数据集内容
- 包含表达 GFP 标记的人类参考蛋白和变异蛋白的 U2OS 细胞的分割单细胞裁剪图像
- 图像尺寸: 128 × 128 像素
- 通道数量: 4 个通道(DNA、GFP、AGP、Mito)
- 数据类型: uint16
- 覆盖 6 个成像批次(B7、B8、B13、B14、B15、B16),每批约 600 个等位基因
- 当前包含 3,332,309 个细胞,共 1,563 个独特等位基因
评估目标
该数据集用于评估学习到的图像表示在变异错误定位检测任务上的表现:给定同一基因的(参考、变异)细胞对,通过批次内留板交叉验证,评估表示能否使等位基因分类器区分参考与变异。
发布状态
所有组件已全部上传完成:
- 检查样本(sample/): ~1.3 GB,已上传
- 每批清单(manifest/): 6/6 批次已上传(Batch_7 至 Batch_16)
- 完整单细胞裁剪图像(single_cell_crops/): 6/6 批次已上传
仓库结构
metadata/ allele_inventory.parquet # 等位基因级目录(1,532 个变异 × 1,031 列) manifest/ # 细胞级目录(每批一份) sample/ # 评审检查子集(~1.3 GB) single_cell_crops/ # 原始 128×128 裁剪图像(每批约 5 GB) representations/ # 处理后的特征 parquet 文件(每表示×每批) MisLocus_croissant.json # Croissant 元数据 README.md # 本文件 LICENSE # CC-BY-4.0
预计算表示
提供 6 种预处理后的表示特征(约 500-1500 列),可直接用于分析:
| 表示方法 | 骨干网络 | 特征列数 | 输入来源 |
|---|---|---|---|
| cellprofiler | 经典 CellProfiler 特征 | ~1,080 | TIFFs |
| cytoself | VQ-VAE,在本数据上训练 | ~500 | 128×128 GFP+核距离裁剪 |
| subcell_finetuned_mae | SubCell MAE 编码器,微调 | ~1,500 | 128×128 4通道裁剪 |
| subcell_finetuned_vit | SubCell ViT 编码器,微调 | ~1,500 | 128×128 4通道裁剪 |
| subcell_portable_rbg_mae | 冻结的 SubCell-Portable MAE | ~1,500 | 128×128 4通道裁剪 |
| subcell_portable_rbg_vit | 冻结的 SubCell-Portable ViT | ~1,500 | 128×128 4通道裁剪 |
所有特征 parquet 文件共享元数据前缀(Metadata_Plate、Metadata_Well 等),并通过 Metadata_CellID 与细胞清单一一对应。
数据拆分
训练/验证/测试拆分未编码在目录结构中。用户可根据每批清单中的 Metadata_Plate 和技术重复信息(T1/T2/T3/T4)自行推导。
获取数据
可通过以下命令快速获取单个批次(约 5 GB): bash hf download anonymous-xyz96/MisLocus --repo-type dataset --include "single_cell_crops/2025_03_17_Batch_15/*" --include "manifest/manifest_Batch_15.parquet" --local-dir ./MisLocus
提取后,每个等位基因目录包含 dna.npy、gfp.npy、agp.npy、mito.npy(形状 (N_cells, 128, 128),uint16)以及 metadata.parquet。
配套代码
许可证
- 数据集: CC-BY-4.0
- 底层成像数据: CC-BY-4.0(由 Cell Painting Gallery 授权)




