toy-shapes-dataset
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/ashwath-vaithina/toy-shapes-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Toy Shapes Dataset是一个用于研究视觉语言模型的合成数据集,包含了形状、颜色和位置信息以及相应的图片。数据集旨在帮助研究者诊断模型在组合推理方面的失败。
创建时间:
2025-08-27
原始信息汇总
Toy Shapes Dataset 数据集概述
基本信息
- 数据集名称:Toy Shapes Dataset
- 任务类别:图像特征提取、图像文本到文本
- 标签:视觉语言模型、机制可解释性、组合推理、合成数据
- 论文:https://huggingface.co/papers/2508.16652
- GitHub 仓库:https://github.com/Mystic-Slice/Do-VLMs-Have-Bad-Eyes
数据集详情
特征结构
- num_shapes:形状数量(int64)
- shape_0 至 shape_4:形状(string)
- color_0 至 color_4:颜色(string)
- position_0 至 position_4:位置(string)
- image:图像(image)
数据划分
- 训练集:500 个样本,1,559,700 字节
- 下载大小:1,354,975 字节
- 数据集大小:1,559,700 字节
用途说明
该数据集用于研究论文《Do VLMs Have Bad Eyes? Diagnosing Compositional Failures via Mechanistic Interpretability》中的工作,专注于视觉语言模型的组合故障诊断和机制可解释性分析。
搜集汇总
数据集介绍

构建方式
在视觉语言模型的可解释性研究领域,Toy Shapes Dataset采用程序化生成方法构建。该数据集通过算法合成包含几何形状的图像,每个样本标注了形状数量、类型、颜色及空间位置等结构化属性。生成过程严格控制变量组合,确保数据在构图复杂性和属性分布上的平衡性,为机理分析提供精准的实验基础。
特点
该数据集的核心特点在于其高度结构化的合成属性与多模态标注体系。每张图像均附带完整的元数据,包括至多五个形状的类别、色彩及方位信息,形成细粒度的组合推理单元。其合成性质消除了真实图像的噪声干扰,使得研究者能够精准控制变量,特别适用于验证视觉语言模型在组合推理任务中的表征能力与失效模式。
使用方法
研究者可借助该数据集开展视觉语言模型的组合推理能力诊断与机理可解释性研究。通过加载图像与结构化标注数据,可构建视觉问答、特征提取或文本生成任务。典型应用包括测试模型对形状、颜色、位置等属性的组合理解,或通过干预实验分析模型内部表征机制,相关代码实现可参考其GitHub开源项目。
背景与挑战
背景概述
视觉语言模型作为多模态人工智能的核心组成部分,其组合推理能力一直是研究重点。Toy Shapes Dataset由Mystic-Slice研究团队于2024年创建,专门针对视觉语言模型的组合推理机制进行诊断分析。该数据集通过合成图像与结构化标注的组合,旨在揭示模型在形状、颜色和空间位置等多属性组合理解中的内在机制,为机理可解释性研究提供了重要基准。
当前挑战
该数据集致力于解决视觉语言模型组合推理失效的诊断难题,主要挑战在于模型对多属性组合的语义理解偏差。构建过程中面临合成数据真实性与复杂度的平衡挑战,需要精确控制形状、颜色和位置的组合规则,同时确保标注信息的结构化一致性。如何设计具有诊断价值的组合模式并保持数据分布的合理性,是数据集构建的核心技术难点。
常用场景
经典使用场景
在视觉语言模型的可解释性研究领域,Toy Shapes Dataset作为合成数据集被广泛用于验证模型组合推理能力的边界。该数据集通过精确控制的几何图形属性组合,为研究者提供了透明的测试环境,能够系统性地评估模型在处理颜色、形状和空间位置等多维度特征时的表现。
衍生相关工作
基于该数据集衍生的经典工作包括组合推理能力的量化评估框架和视觉语言模型的故障诊断工具链。这些研究不仅推动了可解释人工智能领域的发展,还催生了新一代测试基准的构建方法论,为合成数据在复杂推理任务中的应用开辟了新的研究方向。
数据集最近研究
最新研究方向
在视觉语言模型的可解释性研究领域,Toy Shapes Dataset作为合成数据集的代表,正推动着组合推理机制的深度解析。该数据集通过精确控制的几何属性和空间关系,为诊断模型组合泛化失败提供了理想实验环境。当前研究聚焦于揭示视觉编码器中的归纳偏差如何影响多模态理解,特别是颜色、形状与位置特征的交互机制。相关成果已引发对视觉语言模型架构优化的重新审视,为构建更可靠的视觉推理系统奠定理论基础。
以上内容由遇见数据集搜集并总结生成



