VisualSphinx

github2025-06-03 更新2025-06-07 收录

下载链接：

https://github.com/VisualSphinx/VisualSphinx

下载链接

链接失效反馈

官方服务：

资源简介：

VisualSphinx是最大的全合成开源视觉逻辑谜题数据集，包含超过66万个自动生成的逻辑视觉谜题。每个逻辑谜题都基于可解释的规则，并配有正确答案和合理的干扰项。

VisualSphinx is the largest open-source synthetic visual logic puzzle dataset, containing over 660,000 automatically generated logic visual puzzles. Each puzzle is based on interpretable rules and is accompanied by correct answers and reasonable distractors.

创建时间：

2025-05-13

原始信息汇总

VisualSphinx数据集概述

数据集简介

名称：VisualSphinx
类型：大规模合成视觉逻辑谜题数据集
规模：超过660K自动生成的逻辑视觉谜题
特点：每个谜题都基于可解释的规则，并包含正确答案和合理的干扰项

数据集版本

主要特性

多样化生成：支持多种谜题风格和格式
自我验证：包含自动验证和评分机制
开放可复现：所有代码、提示词和数据处理步骤均开源

技术信息

相关论文：VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
代码仓库：VisualSphinx-Generator
训练参考：verl

许可信息

许可证：MIT License

联系方式

联系人：Yichen (yfeng42@uw.edu)
问题反馈：GitHub Issues

引用格式

bibtex @misc{feng2025visualsphinx, title={VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL}, author={Yichen Feng and Zhangchen Xu and Fengqing Jiang and Yuetai Li and Bhaskar Ramasubramanian and Luyao Niu and Bill Yuchen Lin and Radha Poovendran}, year={2025}, eprint={2505.23977}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.23977}, }

搜集汇总

数据集介绍

构建方式

VisualSphinx数据集通过自动化流程构建，生成了超过66万道视觉逻辑谜题。该流程利用多样化的规则模板和源数据，自动生成每道谜题的正确解答及干扰项，并通过自验证机制确保谜题质量。整个生成过程完全开源，包含详细的代码和数据处理步骤，保证了数据集的透明性和可复现性。

特点

VisualSphinx以其大规模和多样性著称，涵盖多种视觉逻辑谜题风格和格式。每道谜题均附带可解释的规则说明，并经过自动化验证评分，确保逻辑严谨性。数据集特别设计了具有迷惑性的干扰项，增强了其在强化学习研究中的实用性。作为完全开源的资源，它提供了从原始数据到训练专用版本的多层次数据组织形式。

使用方法

使用VisualSphinx需先配置Python环境并安装依赖库，通过提供的生成管道可复现或扩展数据集。研究者可选择原始数据、强化学习专用子集或基准测试集等不同版本。数据集支持与VERL等强化学习框架直接对接，其结构化规则描述和验证机制为开发新型视觉推理算法提供了标准化评估平台。

背景与挑战

背景概述

VisualSphinx数据集由华盛顿大学研究团队于2025年提出，是当前规模最大的开源视觉逻辑谜题合成数据集。该数据集通过自动化生成技术构建了超过66万条具有可解释规则的视觉逻辑谜题，每个谜题均包含正确答案和干扰项。作为强化学习领域的新型基准测试平台，VisualSphinx通过其模块化生成管道实现了谜题风格与格式的多样化，为计算机视觉与逻辑推理的交叉研究提供了重要实验载体。该数据集的技术方案发表于计算机视觉顶级会议，其创新性的自验证机制为合成数据的质量控制树立了新标准。

当前挑战

在领域问题层面，VisualSphinx致力于解决视觉逻辑推理任务中标注数据稀缺的核心痛点，其挑战在于如何构建同时满足视觉复杂性和逻辑严谨性的评估体系。数据构建过程中面临三大技术难点：自动化生成管道需要平衡规则模板的覆盖广度与生成效率；自验证机制需设计对抗性干扰项以提升模型鲁棒性；大规模合成数据必须确保语义一致性与视觉真实性之间的协调。这些挑战使得数据集构建成为跨计算机视觉、程序生成和逻辑推理的综合性难题。

常用场景

经典使用场景

VisualSphinx数据集在强化学习领域具有广泛的应用价值，其生成的视觉逻辑谜题为智能体提供了丰富的训练环境。这些谜题不仅包含多样化的视觉元素，还嵌入了可解释的逻辑规则，为研究视觉推理和逻辑推理的融合提供了理想平台。数据集中的每个谜题都配有正确答案和干扰项，使得智能体能够在复杂环境中学习有效的决策策略。

解决学术问题

VisualSphinx数据集解决了视觉与逻辑推理结合的学术难题，填补了大规模合成视觉逻辑数据的空白。通过自动生成的多样化谜题，研究者能够深入探索智能体在复杂视觉环境中的推理能力。数据集的自我验证机制确保了谜题的质量和可靠性，为强化学习算法的评估提供了标准化基准。

衍生相关工作

基于VisualSphinx数据集，研究者们开发了多种强化学习算法和视觉推理模型。例如，VolcEngine团队利用该数据集训练了高效的视觉推理智能体，推动了视觉与逻辑结合的前沿研究。数据集的开放性和高质量也激发了更多关于合成数据生成和验证方法的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集