Spatial-CAPTCHABench
收藏arXiv2025-10-05 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/amoriodi/Spatial-CAPTCHA-bench
下载链接
链接失效反馈官方服务:
资源简介:
Spatial-CAPTCHABench是一个用于评估人类和机器在空间推理方面差异的基准数据集。该数据集由Spatial CAPTCHA系统生成,包含各种需要空间推理的任务,例如几何推理、视角转换、遮挡处理和心智旋转。这些任务对于人类来说是直观的,但对于最先进的AI系统来说却是困难的。Spatial-CAPTCHABench旨在解决现有CAPTCHA系统易受攻击的问题,通过利用人类在空间推理方面的优势来区分人类和机器。
Spatial-CAPTCHABench is a benchmark dataset designed to evaluate the disparities in spatial reasoning capabilities between humans and machines. Generated by the Spatial CAPTCHA system, this dataset comprises a variety of tasks that require spatial reasoning, such as geometric reasoning, perspective transformation, occlusion handling, and mental rotation. These tasks are intuitive for humans yet pose significant challenges to state-of-the-art AI systems. Spatial-CAPTCHABench aims to address the vulnerability of existing CAPTCHA systems by leveraging humans' superior spatial reasoning abilities to distinguish between humans and machines.
提供机构:
Department of Computer Science,MBZUAI,Abu Dhabi,UAE Department of Computer Science,City University of Hong Kong,Hong Kong,China
创建时间:
2025-10-05
搜集汇总
数据集介绍

构建方式
在空间认知计算领域,Spatial-CAPTCHABench通过程序化生成流程构建,采用基于约束的难度控制机制。系统首先定义七类空间推理任务,通过参数化采样生成几何场景,结合刚性变换与遮挡处理构建三维世界模型。每个实例均经过自动化验证框架检验,确保空间关系唯一性与视觉可辨识性,最后通过多模态渲染引擎生成图像-文本对,形成可扩展的基准测试集合。
特点
该数据集深度融合认知科学与计算几何原理,涵盖空间感知、视角转换、心理旋转及多步空间可视化四大能力维度。其核心特征在于通过数学不变性约束保证任务效度,采用分层难度设计实现从基础空间对齐到复杂几何约束的渐进式评估。区别于传统CAPTCHA,该基准通过动态生成机制避免数据泄露风险,同时保持人类解题率超过99%而顶尖多模态大模型仅达31%的显著性能差距。
使用方法
研究者可通过标准化评估协议进行零样本测试,使用固定提示词确保结果可比性。基准支持分能力维度诊断分析,提供基于响应时间与准确率的双重评估指标。在安全验证场景中,系统可实时生成个性化空间推理题目,通过后端验证模块判断解题轨迹是否符合人类认知模式。该数据集同时支持扩展新空间不变量定义,为持续演进的空间推理研究提供基础设施。
背景与挑战
背景概述
随着多模态大语言模型在文本识别与二维图像理解任务上的突破,传统验证码系统的安全防线逐渐瓦解。Spatial-CAPTCHABench由MBZUAI与香港城市大学联合团队于2025年提出,其核心研究聚焦于利用人类与机器在空间认知能力的本质差异,构建基于几何推理、视角转换、遮挡处理及心理旋转的动态验证机制。该数据集通过程序化生成流程与约束式难度控制,为人工智能安全领域提供了首个系统性评估空间推理能力的基准,显著推动了人机区分技术从感知层面向认知层面的范式转移。
当前挑战
在领域问题层面,该数据集致力于解决传统验证码因依赖低阶感知任务而易被先进人工智能攻破的缺陷,其核心挑战在于设计能持续保持人机难度差距的空间推理任务。构建过程中面临双重挑战:一是需建立数学化的空间不变性认证体系,确保生成问题的几何约束与人类直觉对齐;二是需克服多模态模型训练数据中空间关系表征的稀缺性,通过程序化生成与人类闭环验证保障实例的语义严谨性与视觉可辨识度。
常用场景
经典使用场景
在网络安全领域,Spatial-CAPTCHABench作为评估人机区分能力的基准数据集,其经典使用场景集中于测试多模态大语言模型在空间推理任务上的表现。该数据集通过程序化生成包含几何推理、视角转换、遮挡处理和心理旋转等七类空间能力任务,为研究者提供了系统评估AI系统空间理解能力的标准化平台。实验表明,人类在该数据集上保持超过90%的准确率,而最先进的多模态大语言模型仅能达到31%的Pass@1准确率,凸显了其在人机区分任务中的独特价值。
解决学术问题
该数据集有效解决了传统CAPTCHA系统因多模态大语言模型进步而逐渐失效的学术难题。通过聚焦于机器难以掌握的空间推理能力,Spatial-CAPTCHABench为计算机视觉和人工智能社区提供了研究空间认知计算模型的实验平台。其基于认知理论的任务设计揭示了当前视觉语言模型在几何一致性保持、物理直觉和具身视角采择等核心空间能力上的结构性缺陷,为开发更鲁棒的人机验证机制奠定了理论基础。
衍生相关工作
该数据集催生了多项空间推理评估的延伸研究。基于其任务范式,研究者开发了GUI交互式空间推理挑战,要求用户操纵或对齐物体而非简单提供答案。在基准建设方面,相关工作扩展了时空推理挑战,涵盖视频序列推理和动态物体交互等复杂场景。此外,真实场景接地的空间CAPTCHA实例被用于收集大规模人类标注数据,为增强多模态大语言模型的空间推理能力提供了宝贵的训练信号。
以上内容由遇见数据集搜集并总结生成



