PointArena
收藏arXiv2025-05-15 更新2025-05-17 收录
下载链接:
https://pointarena.github.io
下载链接
链接失效反馈官方服务:
资源简介:
PointArena是一个全面的多模态指点点评价平台,由华盛顿大学、艾伦人工智能研究所和安德森学院职业技术学院的研究团队开发。该平台包含三个部分:Point-Bench,一个包含约1000个指点点任务的定制数据集,分为五个推理类别;Point-Battle,一个交互式、基于网络的竞技场,用于模型之间的匿名、成对比较,已经收集了超过4500个匿名投票;Point-Act,一个现实世界的机器人操作系统,允许用户直接评估多模态模型在现实场景中的指点点能力。PointArena旨在通过语言指导的多模态指点点任务,评估多模态模型的空间定位精度,并支持下游应用,如机器人技术、增强现实和人机交互。
PointArena is a comprehensive multimodal pointing evaluation platform developed by research teams from the University of Washington, the Allen Institute for AI, and Anderson College of Career and Technical Education. The platform consists of three parts: Point-Bench, a custom dataset containing approximately 1,000 pointing tasks divided into five reasoning categories; Point-Battle, an interactive web-based arena for anonymous pairwise comparisons between models, which has collected over 4,500 anonymous votes; and Point-Act, a real-world robotic operating system that allows users to directly evaluate the pointing capabilities of multimodal models in realistic scenarios. PointArena aims to evaluate the spatial localization accuracy of multimodal models via language-guided multimodal pointing tasks, and supports downstream applications such as robotics, augmented reality, and human-computer interaction.
提供机构:
华盛顿大学,艾伦人工智能研究所,安德森学院职业技术学院
创建时间:
2025-05-15
原始信息汇总
Point Arena 数据集概述
数据集简介
- 名称:Point Arena
- 研究主题:通过语言引导的指向任务探究多模态基础能力
- 核心目标:评估多模态大语言模型(MLLMs)中语言与视觉的精确空间对齐能力
- 特点:
- 首个专门评估语言引导指向能力的开放统一平台
- 提供标准化场景、多样化数据集和严格评估协议
- 填补现有基准测试在细粒度基础任务上的空白
数据集组成
1. Point-Bench
- 功能:语言与视觉间精确空间对齐的标准化评估
- 评估维度:
- Affordance
- Spatial
- Reasoning
- Steerability
- Counting
- Average
- 排名示例:
- 第1名:Human (平均分89.128)
- 第2名:Molmo-72B (平均分63.832)
- 第3名:Molmo-7B-O (平均分63.266)
2. Point-Battle
- 功能:评估不同模型类型和提示策略的性能差异
- 评估指标:
- Elo Rating
- Wins
- Losses
- Games
- Win Rate
- Confidence Interval
- 排名示例:
- 第1名:allenai/Molmo-7B-D-0924 (Elo 1205.3)
- 第2名:Qwen/Qwen2.5-VL-7B-Instruct (Elo 1058.9)
3. Point-Act
- 功能:提供标准化场景和严格评估协议的多样化数据集
- 评估指标:
- Success Rate
- SUS Score
- 示例结果:
- Human: 成功率90%, SUS评分88.2
- Molmo: 成功率70%, SUS评分61.6
数据获取
- Point-Bench数据:下载完整数据(CSV)
- Point-Battle数据:下载完整数据(CSV)
- Point-Act数据:下载完整数据(CSV)
研究团队
- 机构:
- 华盛顿大学
- 艾伦人工智能研究所
- Anderson Collegiate Vocational Institute
- 主要作者:
- Long Cheng (共同第一作者)
- Jiafei Duan (共同第一作者)
- Yi Ru Wang (共同第二作者)
- Haoquan Fang (共同第二作者)
- Boyang Li (共同第二作者)
引用信息
bibtex @misc{cheng2025pointarenaprobingmultimodalgrounding, title={PointArena: Probing Multimodal Grounding Through Language-Guided Pointing}, author={Long Cheng and Jiafei Duan and Yi Ru Wang and Haoquan Fang and Boyang Li and Yushan Huang and Elvis Wang and Ainaz Eftekhar and Jason Lee and Wentao Yuan and Rose Hendrix and Noah A. Smith and Fei Xia and Dieter Fox and Ranjay Krishna}, year={2025}, eprint={2505.09990}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.09990}, }
搜集汇总
数据集介绍
构建方式
PointArena数据集的构建采用了多阶段、多模态的协同标注策略。研究团队首先通过众包平台招募标注人员,利用基于Gradio的交互界面收集图像-问题对,涵盖空间关系、功能部件识别、计数推理等五大任务类型。每个样本需经过三重验证:初始由SAM模型生成目标掩膜,人工标注员进行网格化精修,最后由独立审核组确认标注质量。为确保数据难度,仅当超过两个基线模型预测错误时,样本才会被纳入最终数据集。这种构建方式有效融合了自动化预处理与人工校验的优势,在保证标注精度的同时覆盖了多样化的视觉推理场景。
特点
该数据集的核心特点体现在三维评估体系的创新设计上。Point-Bench作为静态基准包含982个像素级标注样本,均衡覆盖空间定位、功能部件识别等五类推理任务;Point-Battle则构建了实时的人机对抗平台,通过4500余次匿名投票捕捉模型在开放场景中的表现;Point-Act进一步将二维定位延伸至机器人操作域,形成从数字评估到物理验证的完整闭环。这种多层级评估框架不仅能检测模型的绝对精度,还能评估其与人类认知的对齐程度,为视觉-语言 grounding 研究提供了前所未有的细粒度分析维度。
使用方法
使用该数据集时建议采用三阶段渐进式评估策略。研究者可先在Point-Bench上进行标准化测试,采用[x,y]坐标输出格式和掩膜覆盖率的二元评估指标;随后通过Point-Battle平台接入实时用户反馈,利用Elo评分系统量化模型的人机交互性能;最终通过Point-Act的机械臂操作实验验证定位精度在实际任务中的转化效果。为规避数据污染,官方推荐采用zero-shot测试协议,并特别提醒避免在训练中引入思维链提示,因实验表明此类方法会使GPT-4o等模型的定位准确率下降2.9%。
背景与挑战
背景概述
PointArena是由华盛顿大学和艾伦人工智能研究所等机构的研究团队于2025年提出的一个综合性多模态基准平台,旨在评估语言引导的指向能力。该数据集构建于计算机视觉与自然语言处理的交叉领域,针对传统基准在空间推理评估上的局限性,提出了包含Point-Bench、Point-Battle和Point-Act的三阶段评估体系。其核心研究问题聚焦于如何通过指向行为实现语言与视觉空间的高精度 grounding,在机器人操作、辅助技术和人机交互等领域具有重要应用价值。该平台通过982个手工标注的图像-问题对和4500+匿名用户投票数据,为多模态模型的细粒度空间推理能力建立了新的评估标准。
当前挑战
领域问题挑战主要体现在:1) 传统视觉 grounding 基准(如RefCOCO系列)仅关注对象定位,难以评估指向行为中的空间常识推理和歧义消解能力;2) 现有模型在计数、可操纵性和推理等复杂任务中的指向准确率显著低于人类水平(平均差距达35%)。构建过程挑战包括:1) 依赖SAM生成的初始掩码存在边缘粗糙问题,需人工网格化修正导致标注效率低下;2) 动态评估平台Point-Battle面临模型性能差距过大导致的无效比较问题;3) 静态基准易受模型训练数据污染影响,如PixMo数据集发布后模型性能出现异常跃升(如Gemini-2.5性能提升45.9%),暗示可能存在数据泄露风险。
常用场景
经典使用场景
PointArena数据集作为多模态语言模型(MLLMs)空间推理能力的评估基准,其经典使用场景主要集中在语言引导的指向任务上。通过结合图像和自然语言指令,模型需要精确识别并指向图像中的特定区域或对象。这种任务不仅涵盖了基础的物体定位,还扩展至空间关系推理、功能性部件识别等复杂场景,为模型在视觉-语言交互中的表现提供了全面评估。
解决学术问题
PointArena解决了多模态模型中空间定位精度不足的核心学术问题。传统基准如RefCOCO系列仅关注对象级定位,而PointArena通过引入五类推理任务(空间、功能、计数、可操控和推理),填补了细粒度空间推理评估的空白。其像素级标注和动态评估框架(Point-Battle)进一步揭示了模型在开放场景中的实用性能,推动了语言-视觉对齐机制的理论研究。
衍生相关工作
PointArena的发布催生了一系列相关研究,如Molmo-72B和RoboPoint等模型通过引入指向监督显著提升性能。其评估框架启发了后续工作如Auto-Arena的自动化对战平台,而PixMo数据集则成为开源模型训练的重要资源。这些衍生成果共同推动了多模态模型在空间推理领域的标准化进程。
以上内容由遇见数据集搜集并总结生成



