Open CaptchaWorld

github2025-06-02 更新2025-06-03 收录

下载链接：

https://github.com/MetaAgentX/OpenCaptchaWorld

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的基于网络的平台，用于测试和基准测试多模态LLM网络代理在CAPTCHA风格谜题上的表现。该项目提供了一个环境，用于评估人工智能系统在各种类似于CAPTCHA（完全自动化的公共图灵测试，以区分计算机和人类）的视觉谜题上的表现。

A comprehensive web-based platform for testing and benchmarking the performance of multimodal LLM web agents on CAPTCHA-style puzzles. This project provides an environment to evaluate the performance of AI systems on various visual puzzles similar to CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart).

创建时间：

2025-06-01

原始信息汇总

Open CaptchaWorld 数据集概述

🌟 数据集简介

Open CaptchaWorld 是一个用于测试和评估多模态LLM网络代理在CAPTCHA风格谜题上表现的综合性网络平台。该数据集基于研究论文《Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents》。

📰 最新动态

[2025-05-29] 发布了第一个版本的Open CaptchaWorld基准测试和数据集

🎯 目标与贡献

现实世界部署障碍：解决网络代理在遇到CAPTCHA测试时受阻的问题
过时的评估方法：提供现代网络代理所需的完整推理、视觉理解和交互能力评估

✨ 主要特性

包含20种不同的CAPTCHA类型
提供网络界面和API端点
支持基准测试跟踪
具有可扩展架构

🧩 CAPTCHA类型

Dice_Count
Geometry_Click
Rotation_Match
Slide_Puzzle
Unusual_Detection
Image_Recognition
Bingo
Image_Matching
Patch_Select
Dart_Count
Object_Match
Select_Animal
Coordinates
Path_Finder
Place_Dot
Connect_icon
Click_Order
Hold_Button
Misleading_Click
Pick_Area

📊 基准测试结果

系统记录在benchmark_results.json中，包含：

谜题类型
谜题ID
用户答案
正确答案
正确性布尔值
时间戳

🚀 快速开始

系统要求

Python 3.10或更高版本

安装步骤

克隆仓库
创建虚拟环境（可选）
安装依赖项

运行应用

启动Flask应用后，可通过http://10.14.0.2:7860/访问

📝 使用方法

网络界面

访问指定URL
随机显示CAPTCHA谜题
将服务器地址添加到代理提示中

🗺️ 未来计划

增加每种CAPTCHA类型的谜题数量
探索参数化方法
研究解决复杂视觉谜题的非参数方法

👥 贡献指南

欢迎通过fork仓库、创建特性分支、提交更改和发起Pull Request的方式贡献

📄 许可证

MIT许可证

搜集汇总

数据集介绍

构建方式

Open CaptchaWorld数据集通过系统化收集20种现代验证码类型构建而成，涵盖从基础数字统计到复杂空间旋转等多样化视觉谜题。研究团队采用模块化架构设计，每种验证码类型独立存储在captcha_data目录下，并配备标准化的ground_truth.json标注文件。数据生成过程结合程序化生成与人工校验，确保每道谜题具有精确的参考答案和交互逻辑，同时通过Flask框架构建的Web平台实现动态加载与交互验证。

使用方法

使用者可通过Hugging Face Spaces平台直接访问在线演示，或通过GitHub仓库本地部署Flask应用。启动服务后，系统将随机呈现验证码谜题，开发者可将服务器地址集成至智能体提示词中。数据集提供CLI管理工具和Python 3.10+环境支持，通过requirements.txt快速安装依赖。对于基准测试需求，系统自动生成的JSON格式性能报告支持横向比较不同模型在各类验证码上的表现，而模块化存储结构便于研究者扩展新的验证码类型。

背景与挑战

背景概述

Open CaptchaWorld是由Yaxin Luo等人于2025年推出的多模态LLM网络代理评估平台，旨在通过CAPTCHA式谜题系统测试人工智能的视觉推理能力。该数据集基于研究论文《Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents》，包含20种不同类型的视觉谜题，从基础的骰子计数到复杂的物体旋转匹配。作为首个面向网络代理的开源CAPTCHA基准测试系统，它不仅模拟了真实网络环境中的验证挑战，更为研究者提供了标准化的评估工具和高质量的训练数据生成平台，显著推动了多模态智能体与网络界面交互能力的研究进程。

当前挑战

Open CaptchaWorld主要解决网络代理在现实部署中遭遇的CAPTCHA验证障碍这一核心问题。传统CAPTCHA已能被专用模型轻易破解，无法有效评估现代网络代理的综合能力。该数据集构建过程中面临双重挑战：在领域层面，需要设计能全面检验代理视觉理解、信息提取和交互应答能力的多样化谜题；在技术实现上，既要确保谜题类型的代表性和复杂性，又要构建真实模拟网络接口的测试环境。具体挑战包括开发20种具有区分度的CAPTCHA变体、建立精确的基准评估体系，以及设计可扩展的架构以支持新型谜题的持续集成。

常用场景

经典使用场景

在人工智能与网络安全领域，Open CaptchaWorld数据集为多模态大语言模型（LLM）Web代理的评估提供了标准化测试环境。该数据集通过20种不同类型的CAPTCHA谜题，系统性地检验AI代理的视觉感知、信息提取和交互决策能力。研究者可利用其丰富的视觉谜题库，从基础的骰子计数到复杂的物体旋转匹配任务，全面评估模型在模拟真实网络环境中的表现。

解决学术问题

该数据集有效解决了多模态AI系统评估中的关键瓶颈问题。传统CAPTCHA测试已被专用分类模型轻易破解，难以真实反映现代Web代理的综合能力。Open CaptchaWorld通过设计层次化的视觉推理任务，填补了复杂人机验证场景下评估标准的空白，为衡量AI系统的跨模态理解、动态交互和抗干扰能力提供了量化基准，推动了可信AI代理的理论研究进展。

实际应用

在现实应用中，该数据集为提升智能代理的实用价值提供了重要支撑。金融机构可利用其测试反欺诈系统的鲁棒性，电商平台能优化验证流程的人机交互设计。教育科技领域则借助其多样化的视觉谜题，开发更具挑战性的认知训练系统。数据集模拟的真实网络环境特性，使得训练出的AI代理能更顺畅地处理实际网站中的验证环节。

数据集最近研究