Open CaptchaWorld

Name: Open CaptchaWorld
Creator: VILA Lab, MBZUAI; MetaAgentX
Published: 2025-05-31 01:59:55
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://huggingface.co/spaces/OpenCaptchaWorld/platform

下载链接

链接失效反馈

官方服务：

资源简介：

Open CaptchaWorld是一个专为评估多模态语言模型（MLLM）驱动的代理在解决现代验证码时的视觉推理和交互能力而设计的在线基准和平台。该数据集涵盖了20种现代验证码类型，总计225个验证码，并采用了一个新的指标——验证码推理深度，以量化解决每个谜题所需的认知和运动步骤数量。Open CaptchaWorld通过在真实的浏览器环境中测试代理的推理和交互能力，为诊断当前多模态代理的局限性并指导更强大多模态推理系统的发展提供了重要的基准。

Open CaptchaWorld is an online benchmark and platform specifically designed to evaluate the visual reasoning and interactive capabilities of multimodal large language model (MLLM)-powered agents when solving modern CAPTCHAs. This dataset covers 20 types of modern CAPTCHAs, totaling 225 CAPTCHAs, and adopts a novel metric—CAPTCHA Reasoning Depth—to quantify the number of cognitive and motor steps required to solve each puzzle. Open CaptchaWorld provides a critical benchmark for diagnosing the limitations of current multimodal agents and guiding the development of more robust multimodal reasoning systems by testing agents' reasoning and interactive capabilities in real-world browser environments.

提供机构：

VILA Lab, MBZUAI; MetaAgentX

创建时间：

2025-05-31

搜集汇总

数据集介绍

构建方式

Open CaptchaWorld数据集的构建采用了一套系统化的流程，以确保其多样性和挑战性。首先，研究团队通过头脑风暴和搜索收集了20种现代CAPTCHA类型。随后，这些CAPTCHA的图像由人类设计师绘制或通过GPT-4o生成，以确保视觉多样性和真实性。接下来，为每种CAPTCHA类型设计了多步骤、长视野的交互任务，这些任务需要模型进行复杂的视觉推理和动态交互。最后，通过人类标注者对每种CAPTCHA的认知和交互步骤进行分解和标注，引入了CAPTCHA Reasoning Depth这一新颖的度量标准，以量化每种谜题的认知难度。

特点

Open CaptchaWorld数据集的特点在于其多样性和交互性。该数据集涵盖了20种现代CAPTCHA类型，总计225个CAPTCHA谜题，每种类型都经过精心设计，以确保对人类直观但对当前多模态代理具有挑战性。数据集引入了CAPTCHA Reasoning Depth这一创新指标，量化了解决每个谜题所需的认知和运动步骤，从而提供了一个任务无关的复杂度衡量标准。此外，数据集的所有谜题均在真实浏览器环境中测试，要求代理通过感知屏幕截图并发出点击或按键动作来完成任务，模拟了真实世界的交互场景。

使用方法

Open CaptchaWorld数据集的使用方法主要围绕评估多模态LLM代理的交互推理能力展开。研究人员可以在该数据集的网页平台上进行零样本测试，评估代理在多种动态CAPTCHA谜题上的表现。代理需要通过感知屏幕截图、进行多步骤推理并执行交互动作（如点击、拖动或键入）来完成任务。数据集的评估指标包括成功率、推理深度以及代理在不同CAPTCHA类型上的表现差异。此外，研究人员可以利用CAPTCHA Reasoning Depth指标深入分析代理在复杂推理任务中的局限性，从而指导更鲁棒的多模态推理系统的开发。

背景与挑战

背景概述

Open CaptchaWorld是由VILA实验室和MetaAgentX的研究团队于2025年推出的首个基于网络的综合性CAPTCHA基准测试平台，旨在评估多模态大语言模型（MLLM）代理在动态交互式验证码任务中的表现。该数据集包含20种现代CAPTCHA类型，共计225个验证码，并创新性地提出了“CAPTCHA Reasoning Depth”指标，用于量化解决每个谜题所需的认知和操作步骤。研究团队通过真实浏览器环境下的闭环测试，揭示了当前最先进的MLLM代理（如Openai-o3）在解决CAPTCHA任务时成功率仅为40%，远低于人类93.3%的表现。该数据集的建立填补了多模态代理在交互式视觉推理能力评估方面的空白，为开发更鲁棒的智能代理系统提供了重要基准。

当前挑战

Open CaptchaWorld面临的挑战主要体现在两个维度：领域问题层面，当前多模态代理在解决需要多步推理和动态交互的CAPTCHA任务时表现欠佳，特别是在处理拖拽操作、序列点击和滑块对齐等复杂交互类型时成功率显著下降；数据构建层面，由于商业CAPTCHA系统的封闭性，研究团队需要自主设计生成所有验证码图像，并通过人工标注确保每个谜题的认知步骤和解决方案的准确性。此外，数据集的动态交互特性要求开发专门的浏览器测试平台，以支持代理在真实网页环境中的多步操作和状态跟踪，这大大增加了系统实现的复杂度。

常用场景

经典使用场景

Open CaptchaWorld数据集作为首个专注于评估多模态大语言模型（MLLM）代理在动态网页环境中交互推理能力的基准，其经典使用场景集中在模拟真实网络环境中的CAPTCHA挑战。通过涵盖20种现代CAPTCHA类型（如拖拽拼图、序列点击、滑块对齐等），该数据集要求代理在闭环浏览器环境中完成多步骤的感知-决策-行动循环，例如识别图像目标后执行精确点击或计算骰子点数后输入结果。这种设计有效还原了电商登录、票务验证等高价值场景中代理遭遇的交互障碍，为测试模型在复杂视觉认知和动作协调上的鲁棒性提供了标准化平台。

实际应用

在实际应用中，Open CaptchaWorld的评估结果直接影响自动化代理的商业化部署。例如，电商平台可依据模型在数据集上的表现筛选能绕过图形验证的物流机器人，金融机构可测试客服代理处理账户安全验证的能力。其提供的交互失败案例（如滑块定位偏差、路径点击错误）已指导开发者优化代理的视觉 grounding 算法和动作执行模块。此外，数据集中Hold Button等任务的设计被安全公司用于升级反机器人验证机制。

衍生相关工作

该数据集催生了多个延伸研究方向：1）基于CAPTCHA Reasoning Depth的复杂度预测模型（如NeurIPS 2026的DepthNet），2）结合强化学习的多步骤交互代理训练框架（如ICLR 2026的CAPTCHA-SOLVER），3）视觉-语言模型在动态环境中的状态跟踪新范式（CVPR 2026的WebStateTracker）。其浏览器交互协议也被VisualWebArena等后续基准采纳，推动了工具增强型代理（Tool-Augmented Agents）的评估标准化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集