Titan-CV-Agent-Benchmark

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/DataCanvasAILab/Titan-CV-Agent-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Titan CV Agent Benchmark是一个计算机视觉AGENT性能评估的基准测试数据集，包含多种模态和丰富的应用领域，如工业制造、公共安全、医疗健康等。数据集设计用于测试AGENT逐步解决问题的能力，涵盖超过200个测试示例，每个问题都需要AGENT进行多步骤的串联思考，答案简单且可验证。

创建时间：

2025-04-25

原始信息汇总

Titan CV Agent Benchmark 数据集概述

基本信息

语言: 中文 (zh)
许可证: Apache License 2.0
任务类别: 视觉问答 (visual-question-answering)
标注方式: 人工标注 (manual)

数据集目的

主要用于评估计算机视觉 (CV) 领域中智能代理 (AGENTS) 的性能。
包含超过200个测试样本，全面测试代理的分步解决问题的能力。

数据集特点

多样性
- 包含多种类型的图像和视频。
- 涵盖工业、医疗、农业、环境、社会、文化、体育和科研等多个应用领域。
复杂性
- 每个问题都保持一定的复杂性，无法通过单一步骤解决。
- 需要多步串行思考。
智能性
- 问题对人类简单但对机器复杂。
- 需要机器具备类似人类的空间认知或高级理解能力。
答案验证
- 每个问题的答案简单且可验证，避免开放式问题的模糊性。

数据集分类

数据集分为4大类22小类：

1. 工业制造与民生技术 (35%)

工业制造 (10%)
公共安全 (8%)
医疗健康 (8%)
农业生产 (6%)
环境监测 (3%)

2. 智慧城市与智慧生活 (30%)

金融科技 (8%)
交通物流 (8%)
智能终端 (6%)
电子商务 (5%)
社会生活 (3%)

3. 文化旅游与体育娱乐 (20%)

文化教育 (4%)
旅游导览 (4%)
媒体娱乐 (3%)
体育科技 (3%)
照片编辑与美妆 (2%)
宠物饲养 (2%)
艺术收藏 (2%)

4. 科研与专业领域 (15%)

科研 (4%)
办公职场 (4%)
政府司法 (3%)
军事国防 (2%)
航空航天 (2%)

数据格式

每个数据项包含以下字段：

id: 数据项编号，格式为"categories_subcategories_items"。
media_path: 媒体文件路径。
media_type: 媒体类型。
query: 关于媒体内容的问题。
answer: 问题的答案。
note: 备注，如答案获取记录。

数据示例

json [ { "id": "1_1_1", "media_path": "media/01/1_1_1.mp4", "media_type": "video", "query": "有一个监控摄像头设置在生产线出料口...", "answer": "11", "note": "2+3+4+2=11" } ]

数据分布

类别	子类别	相对比例 (%)	绝对数量
工业制造与民生技术 (35%)	工业制造	10	50
	公共安全	8	40
	医疗健康	8	40
	农业生产	6	30
	环境监测	3	15
智慧城市与智慧生活 (30%)	金融科技	8	40
	交通物流	8	40
	智能终端	6	30
	电子商务	5	25
	社会生活	3	15
文化旅游与体育娱乐 (20%)	文化教育	4	20
	旅游导览	4	20
	媒体娱乐	3	15
	体育科技	3	15
	照片编辑与美妆	2	10
	宠物饲养	2	10
	艺术收藏	2	10
科研与专业领域 (15%)	科研	4	20
	办公职场	4	20
	政府司法	3	15
	军事国防	2	10
	航空航天	2	10
总计		100	500

支持单位

Datacanvas: 官网链接

搜集汇总

数据集介绍

构建方式

Titan CV Agent Benchmark数据集的构建遵循严谨的多模态原则，通过人工标注方式收集了涵盖工业制造、智慧城市、文化旅游、科研专业等四大领域的200余个测试样本。构建过程中特别注重问题的复杂性设计，每个样本均要求智能体进行多步骤推理，避免单一视觉语言模型直接求解的可能性。数据格式采用标准化六字段结构，包含媒体路径、问题描述、验证性答案等关键信息，确保了评估的客观性和可重复性。

特点

该数据集最显著的特征在于其精心设计的认知复杂性，所有问题均模拟人类简单认知但对机器构成挑战的场景，有效规避了传统记忆或计算优势的干扰。数据覆盖22个子领域，包含视频、图像等多种媒体类型，其中工业制造和民生技术占比35%，智慧城市占30%，形成了具有行业代表性的分布结构。每个问题的答案设计为简洁可验证的封闭式响应，同时设置超过6个干扰项以降低猜测正确率。

使用方法

使用该数据集时需通过提供的媒体路径加载对应视觉素材，按照问题描述进行多步骤推理评估。评估过程应重点关注智能体在空间认知、序列决策等方面的表现，答案验证采用标准化比对方式。数据集采用Apache 2.0许可协议，用户可通过GitHub仓库获取完整测试样本及评估指南，未开放的类别数据将按计划逐步开源。典型应用场景包括计算机视觉智能体的认知能力基准测试和分步骤解决问题能力的评估。

背景与挑战

背景概述

Titan-CV-Agent-Benchmark数据集由DataCanvasAILab团队构建，旨在评估计算机视觉领域中智能代理（AGENTS）的综合性能。该数据集涵盖了工业制造、公共安全、医疗健康、农业生产、环境监测等22个子领域的多样化视觉问题，共计500个测试样本。其核心研究问题聚焦于智能代理在复杂多模态场景下的多步推理能力，突破了传统视觉语言模型（VLM）单步处理的局限性。通过模拟人类认知过程，该数据集为智能代理在真实场景中的空间理解、逻辑推理等高级能力提供了标准化评估框架。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决智能代理对跨模态视觉内容的语义解构难题，例如工业检测中的动态目标计数、医疗影像的病理特征关联分析等任务，要求模型具备人类级的空间认知与逻辑推理能力。在构建过程中，需平衡问题复杂度与答案可验证性的矛盾，既要设计需要多工具协同解决的复合型任务，又要确保答案的客观唯一性。同时，数据采集涉及医疗、军事等敏感领域，需严格处理隐私与伦理问题。

常用场景

经典使用场景

在计算机视觉领域，Titan CV Agent Benchmark数据集被广泛用于评估智能代理（AGENTS）的多模态理解和复杂问题解决能力。该数据集通过涵盖工业制造、医疗健康、农业环境等22个子领域的500个测试样本，要求智能代理进行多步骤推理，而非简单的单步视觉问答。这种设计尤其适合验证智能体在真实场景中模仿人类认知过程的能力，例如在生产线监控中统计零件数量，或分析医疗图像时结合临床知识进行分步诊断。

解决学术问题

该数据集有效解决了传统视觉语言模型（VLM）评估中存在的单步推理局限性问题。通过设计需要空间认知、领域知识融合和序列决策的复杂任务，如农作物病虫害检测中的多特征联合分析，或自动驾驶场景下的实时交通决策链构建，为学术界提供了衡量智能代理高阶认知能力的标准。其严格的答案验证机制（如6选项以上设计）显著降低了模型通过概率猜测获得高分的可能性，推动了鲁棒性评估方法的发展。

衍生相关工作

该数据集催生了多个标志性研究，包括DataCanvas实验室提出的Titan-CV-Agent-Sandbox框架，其采用强化学习优化多模态任务调度策略，在工业检测子任务中提升18%的F1分数。华为诺亚方舟团队据此开发的Hierarchical VQA架构，通过分层解耦视觉特征与领域知识，在医疗健康类问题中实现89.7%的准确率。国际计算机视觉顶会ICCV 2023收录的《CogAgent》论文，亦采用该数据集作为核心评估基准验证其认知推理模型的有效性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集