Lens, AdsQA

Name: Lens, AdsQA
Creator: 浙江大学
Published: 2025-09-18 00:21:34
License: 暂无描述

arXiv2025-09-18 更新2025-09-19 收录

下载链接：

https://github.com/mars2workshop/

下载链接

链接失效反馈

官方服务：

资源简介：

MARS22025竞赛提供了两个定制的多模态数据集：Lens和AdsQA。Lens数据集包含3.4K图像和60K+人工编写的涵盖12个日常场景的问题，用于评估多模态推理的多层次评价。AdsQA数据集是从1,544个广告视频中提取的，提供10,962个剪辑，总计22.7小时的视频，用于评估广告视频中的非阶梯复杂推理。这两个数据集旨在探索推理任务之间的协同效应和非阶梯复杂推理，以拓宽大型语言模型的多模态推理应用。

The MARS22025 competition presents two custom multimodal datasets: Lens and AdsQA. The Lens dataset comprises 3.4K images and over 60K manually crafted questions spanning 12 daily scenarios, intended for multi-level evaluation of multimodal reasoning. The AdsQA dataset, extracted from 1,544 advertising videos, provides 10,962 video clips with a combined total duration of 22.7 hours, dedicated to evaluating non-stepwise complex reasoning in advertising videos. These two datasets are designed to explore the synergistic effects between different reasoning tasks and non-stepwise complex reasoning, thereby broadening the multimodal reasoning application scenarios of large language models (LLMs).

提供机构：

浙江大学

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

Lens数据集通过从社交媒体平台手动采集图像数据构建，覆盖12种日常生活场景，并针对每张图像进行多任务标注，包括物体计数、区域OCR和场景知识推理等八类任务。该数据集包含3400张图像和超过6万个人工撰写的问题，确保了数据的新颖性和多样性，其中53%的图像发布于2025年1月之后，有效减少了模型固有知识对推理性能的影响。

特点

Lens数据集具备三大核心特征：一是支持从基础感知到组合推理的多层次评估，通过统一数据分布研究多模态推理任务的协同效应；二是图像来源具有高时效性，有效规避了预训练数据泄露问题；三是标注丰富度高，涵盖多样化的物体类别、场景类型和多尺度边界框，为下游任务提供强支撑。其难点在于复杂查询、高分辨率图像和小目标定位的复合挑战，即使当前最先进的多模态大模型在推理任务上的准确率也难以超过60%。

使用方法

该数据集支持视觉定位（VG-RS）和空间感知视觉问答（VQA-SA）双任务评估，需通过EvalAI平台提交预测结果。VG-RS任务采用IoU@0.5指标评估检测框精度，VQA-SA任务使用GLM4-flash作为自动评估器，通过多数投票机制判断答案正确性。研究人员可基于统一图像样本同步开展两类任务实验，以探究多模态推理的协同机制与跨任务泛化能力。

背景与挑战

背景概述

Lens与AdsQA数据集由ICCV 2025 MARS2研讨会团队于2025年创建，旨在推动多模态推理研究向现实场景与专业领域深化。Lens专注于日常场景的多层次推理评估，涵盖12类生活场景及8项任务，包含3.4K图像与60K+人工标注问题；AdsQA则为首个广告视频问答数据集，基于1,544条广告视频构建，聚焦非物理性抽象推理。这两个数据集由80余位研究者协作完成，通过系统化标注框架解决了传统基准在协同推理效应与非线性复杂推理评估上的不足，显著推动了多模态大模型在细粒度感知与认知推理方面的研究进展。

当前挑战

领域问题挑战体现为：Lens需解决复杂空间关系建模、小目标定位及多任务协同推理的难题，当前顶尖模型在推理任务准确率均低于60%；AdsQA要求模型理解广告中的隐喻策略、情感传递与受众定位等抽象语义，Gemini 2.5Pro仅达60.7%准确率，与人类71.4%存在显著差距。构建挑战包括：Lens需协调社交媒体图像时效性（53%为2025年后数据）与多尺度标注一致性；AdsQA需处理视频信息密度高、非结构化创意元素标注难题，且需平衡计算效率与时序语义完整性。

常用场景

经典使用场景

在视觉语言模型研究领域，Lens数据集被广泛用于评估模型在复杂真实场景中的多模态推理能力。该数据集涵盖12类日常场景，如街道、车站和学校，支持从基础感知到组合推理的多层次任务，包括目标计数、区域OCR和场景知识推断。研究者通过Lens检验模型在空间关系理解、视觉定位和常识推理等方面的表现，尤其在需要协同处理多任务的场景中展现其独特价值。

解决学术问题

Lens数据集有效解决了多模态推理中的两大核心学术问题：一是任务间协同效应的评估难题，通过确保不同推理任务样本源于同一数据分布，支持模型在共享语境下完成感知、理解和推理的连贯整合；二是非逐步复杂推理的挑战，推动模型超越传统的链式思维，应对需要整体认知和隐含逻辑的现实场景。该数据集为研究多模态大语言模型在真实环境中的推理能力提供了标准化测试基准，显著促进了领域内评估方法的科学化和精细化。

衍生相关工作

Lens数据集催生了多项经典研究工作，例如基于该数据集的视觉定位模型VG-SMART和DCM-VG，它们融合了强化学习与专家模型协作策略，显著提升了空间推理精度。同时，它启发了多任务协同学习框架的开发，如SRCN-AIVL团队的集成方法，通过结合通用模型与领域专家模型解决复杂视觉问题。此外，Lens还促进了提示工程和数据增强技术的创新，为多模态推理研究提供了丰富的方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集