five

MisLocus

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/anonymous-xyz96/MisLocus
下载链接
链接失效反馈
官方服务:
资源简介:
MisLocus数据集是一个用于评估变异蛋白错误定位检测任务的单细胞图像数据集。该数据集包含从Cell Painting Gallery的VarChAMP集合(cpg0020-varchamp)中提取的U2OS细胞分割图像,这些细胞表达了GFP标记的人类参考蛋白和变异蛋白。每个图像裁剪大小为128x128像素,包含四个通道(DNA、GFP、AGP、Mito),数据类型为uint16。完整发布版本涵盖6个成像批次(B7、B8、B13、B14、B15、B16),每个批次约600个等位基因。当前上传的数据包含6个批次的3,332,309个细胞,涉及1563个独特等位基因。数据集旨在评估学习到的图像表示在变异错误定位检测中的性能:给定来自同一基因的(参考、变异)细胞对,能否通过批次内留一板交叉验证使每个等位基因分类器区分参考与变异细胞。数据集按阶段上传,包括检查样本、每批次清单和完整单细胞图像裁剪。数据集采用CC-BY-4.0许可,并提供了配套代码库。
创建时间:
2026-05-05
原始信息汇总

MisLocus 数据集概述

基本信息

  • 数据集名称: MisLocus — Single-Cell Crops for Variant Mislocalization Benchmarking
  • 许可证: CC-BY-4.0
  • 数据规模: 1M < n < 10M(约 333 万个细胞)
  • 标签: biology, cell-imaging, variant-effect, benchmark
  • 来源: 公共 Cell Painting Gallery(cpg0020-varchamp)中的 U2OS 细胞成像数据

数据集内容

  • 包含表达 GFP 标记的人类参考蛋白和变异蛋白的 U2OS 细胞的分割单细胞裁剪图像
  • 图像尺寸: 128 × 128 像素
  • 通道数量: 4 个通道(DNA、GFP、AGP、Mito)
  • 数据类型: uint16
  • 覆盖 6 个成像批次(B7、B8、B13、B14、B15、B16),每批约 600 个等位基因
  • 当前包含 3,332,309 个细胞,共 1,563 个独特等位基因

评估目标

该数据集用于评估学习到的图像表示在变异错误定位检测任务上的表现:给定同一基因的(参考、变异)细胞对,通过批次内留板交叉验证,评估表示能否使等位基因分类器区分参考与变异。

发布状态

所有组件已全部上传完成:

  • 检查样本(sample/): ~1.3 GB,已上传
  • 每批清单(manifest/): 6/6 批次已上传(Batch_7 至 Batch_16)
  • 完整单细胞裁剪图像(single_cell_crops/): 6/6 批次已上传

仓库结构

metadata/ allele_inventory.parquet # 等位基因级目录(1,532 个变异 × 1,031 列) manifest/ # 细胞级目录(每批一份) sample/ # 评审检查子集(~1.3 GB) single_cell_crops/ # 原始 128×128 裁剪图像(每批约 5 GB) representations/ # 处理后的特征 parquet 文件(每表示×每批) MisLocus_croissant.json # Croissant 元数据 README.md # 本文件 LICENSE # CC-BY-4.0

预计算表示

提供 6 种预处理后的表示特征(约 500-1500 列),可直接用于分析:

表示方法 骨干网络 特征列数 输入来源
cellprofiler 经典 CellProfiler 特征 ~1,080 TIFFs
cytoself VQ-VAE,在本数据上训练 ~500 128×128 GFP+核距离裁剪
subcell_finetuned_mae SubCell MAE 编码器,微调 ~1,500 128×128 4通道裁剪
subcell_finetuned_vit SubCell ViT 编码器,微调 ~1,500 128×128 4通道裁剪
subcell_portable_rbg_mae 冻结的 SubCell-Portable MAE ~1,500 128×128 4通道裁剪
subcell_portable_rbg_vit 冻结的 SubCell-Portable ViT ~1,500 128×128 4通道裁剪

所有特征 parquet 文件共享元数据前缀(Metadata_Plate、Metadata_Well 等),并通过 Metadata_CellID 与细胞清单一一对应。

数据拆分

训练/验证/测试拆分未编码在目录结构中。用户可根据每批清单中的 Metadata_Plate 和技术重复信息(T1/T2/T3/T4)自行推导。

获取数据

可通过以下命令快速获取单个批次(约 5 GB): bash hf download anonymous-xyz96/MisLocus --repo-type dataset --include "single_cell_crops/2025_03_17_Batch_15/*" --include "manifest/manifest_Batch_15.parquet" --local-dir ./MisLocus

提取后,每个等位基因目录包含 dna.npygfp.npyagp.npymito.npy(形状 (N_cells, 128, 128),uint16)以及 metadata.parquet

配套代码

许可证

  • 数据集: CC-BY-4.0
  • 底层成像数据: CC-BY-4.0(由 Cell Painting Gallery 授权)
搜集汇总
数据集介绍
main_image_url
构建方式
MisLocus数据集源自公共细胞绘画画廊(Cell Painting Gallery)中的cpg0020-varchamp项目,通过对表达GFP标记的人类参考蛋白与变体蛋白的U2OS细胞进行精细化分割与裁剪,生成了128×128像素的单细胞图像。每个单细胞作物包含四个荧光通道(DNA、GFP、AGP、线粒体),并以uint16格式存储。数据集覆盖6个成像批次(B7、B8、B13至B16),每个批次约包含600个等位基因变体,最终汇集了超过1563种独特等位基因的3,332,309个细胞。构建流程中,所有图像经过严格的批次内留一板交叉验证划分,确保变体定位错误的检测评估具有高度可靠性。
特点
MisLocus数据集的核心特点在于其专注于变体蛋白错定位检测的基准评估。它不仅提供了原始的单细胞裁剪图像,还预计算了多种特征表示,包括经典的CellProfiler特征、基于VQ-VAE的Cytoself特征,以及经过微调或冻结的SubCell MAE与ViT编码器特征。这些特征覆盖约500至1500维,可直接用于下游分类任务。数据集通过批次清单(manifest)与分片压缩包(shard tarballs)组织,每个批次拥有独立的元数据文件,支持灵活的样本划分。此外,等位基因清单(allele_inventory.parquet)整合了ClinVar致病性注释与序列信息,为生物学解释提供了丰富的上下文。
使用方法
使用MisLocus数据集时,研究者可通过Hugging Face Hub下载指定批次的分片文件。以Batch_15为例,需下载单细胞作物分片及对应清单,解压后每个等位基因目录下包含各通道的numpy数组(形状为N_cells×128×128)与元数据文件。数据集未预设训练/验证/测试划分,用户需根据批次清单中的板编号与技术重复信息,按照论文所述协议自行生成拆分。预计算的特征表示存放于representations/目录,可直接加载为pandas DataFrame并用于模型训练或评估。配套代码仓库提供了完整的基准测试流程,便于复现论文中的AUROC表格与消融实验。
背景与挑战
背景概述
MisLocus数据集由匿名研究团队于2026年创建,作为NeurIPS 2026评测与数据集赛道的一部分,旨在推动基于单细胞图像的蛋白质变异定位偏差检测研究。该数据集从公共细胞绘画库(Cell Painting Gallery)的子集cpg0020-varchamp中提取,包含表达GFP标记的人源参考与变异蛋白的U2OS细胞分割后单细胞裁剪图像,共计超过330万个细胞,涵盖1563种独特等位基因,分布于6个成像批次。每张128×128像素的裁剪图像包含DNA、GFP、AGP和Mito四个荧光通道,为评估学习型图像表示在变异诱导的蛋白质亚细胞定位异常检测中的能力提供了标准化基准。该数据集通过提供多种预计算表示(如CellProfiler、Cytoself及微调后的Vision Transformer特征)和严格的批内留一板交叉验证协议,显著促进了计算生物学与细胞成像领域的交叉研究。
当前挑战
MisLocus数据集核心解决的领域挑战在于精准检测由单核苷酸变异引起的蛋白质亚细胞错误定位,这一任务对于理解疾病机制和开发治疗方案至关重要。传统方法依赖高通量实验验证,耗时且成本高昂,而计算模型需克服细胞异质性、成像噪声及等位基因效应微弱等难题。数据集构建过程中面临多重挑战:首先,从海量公共细胞绘画库中分割、清洗单细胞裁剪图像,需确保细胞形态完整且避免伪影;其次,标准化多批次、多通道图像的采集参数与荧光强度,以消除批次效应;最后,为每个变异等位基因匹配参考对照,并设计可重复的留一板验证协议,平衡数据稀疏性与统计效力。这些挑战要求数据集在规模、标注精确度和协议严谨性之间取得平衡。
常用场景
经典使用场景
MisLocus数据集为单细胞分辨率下的蛋白质变异定位异常检测提供了标准化的基准测试平台。该数据集包含超过330万张U2OS细胞的128×128像素多通道显微图像,涵盖四个荧光通道(DNA、GFP、AGP、线粒体),覆盖了1563个独特等位基因。研究团队通过参照与变异蛋白的配对单细胞图像,采用留一板交叉验证策略,评估不同图像表示方法区分变异与参照细胞的能力,从而构建了从原始显微图像到蛋白质定位变异预测的完整评估管线。
解决学术问题
MisLocus解决了罕见遗传变异功能注释领域的关键瓶颈问题,即如何在大规模细胞成像数据中准确识别导致蛋白质错误定位的致病性变异。传统方法依赖序列信息预测变异效应,却无法捕捉细胞内蛋白质分布的微妙变化。该数据集通过提供高质量的配对单细胞图像,使得研究者能够将细胞形态学表型与基因型关联,为理解错义突变对蛋白质亚细胞定位的影响提供了量化基准,推动了计算生物学与细胞成像的交叉融合。
衍生相关工作
MisLocus的发布催生了多项代表性研究工作,包括基于Masked Autoencoder的自监督表示学习方法,其在微调后能够从四通道单细胞图像中提取富含定位信息的特征向量。另一项衍生工作利用等变神经网络对细胞内的空间关系进行建模,显著提升了变异检测的泛化性能。此外,该数据集还促进了跨模态预测方法的开发,使研究者能够从蛋白质序列直接预测其细胞内的空间分布模式,为人脸变体效应预测领域开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作