five

ProactiveBench

收藏
github2026-03-23 更新2026-03-25 收录
下载链接:
https://github.com/tdemin16/proactivebench
下载链接
链接失效反馈
官方服务:
资源简介:
ProactiveBench是一个基准测试,用于测试多模态大语言模型在不同任务中的主动性,例如识别遮挡物体、提高图像质量和解释粗略草图。该基准测试由七个重新调整用途的数据集构建而成,旨在作为构建主动多模态模型的第一步。

ProactiveBench is a benchmark for evaluating the proactivity of multimodal large language models (LLMs) across diverse tasks, including recognizing occluded objects, enhancing image quality, and interpreting rough sketches. This benchmark is built upon seven repurposed datasets and is intended as the inaugural step towards developing proactive multimodal models.
创建时间:
2026-03-15
原始信息汇总

ProactiveBench 数据集概述

数据集基本信息

  • 数据集名称:ProactiveBench
  • 创建者:Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini
  • 相关论文:https://arxiv.org/abs/2603.19466
  • 数据集存储位置:https://huggingface.co/datasets/tdemin16/ProactiveBench/tree/main
  • 代码仓库:https://github.com/tdemin16/proactivebench

数据集简介

ProactiveBench 是一个用于评估多模态大语言模型(MLLMs)主动行为能力的基准测试。其核心研究问题是:模型能否在需要时主动请求简单的人类干预以更好地完成任务。该基准由七个重新调整用途的数据集构建而成,旨在测试模型在不同任务中的主动性,例如识别被遮挡物体、提升图像质量以及解释粗略草图。

主要构成与任务

  • 数据来源:基于七个现有数据集重新构建。
  • 涵盖任务类型
    • 识别被遮挡物体。
    • 提升图像质量。
    • 解释粗略草图。

评估方法与指标

  • 支持两种评估模式
    1. 多项选择题(MCQA):输出类别准确率(acc)和平均主动建议率(ps rate)。
    2. 开放式生成(OEG):通过评判模型(judge)来评估生成答案的正确性、主动性建议和综合得分。
  • 核心抽象:使用“环境”封装每个样本,跟踪模型所见图像、可用操作,并判断模型响应是正确预测还是主动建议。
  • 主要发现(基于对22个MLLMs的评估)
    • 模型普遍缺乏主动性。
    • 主动性与模型能力无关。
    • “提示”主动性仅带来边际收益。
    • 对话历史和上下文学习会引入负面偏见,阻碍性能。
    • 基于强化学习的简单微调策略表明主动性可以被学习,并能泛化到未见场景。

数据获取与使用

  • 安装包pip install proactivebench
  • 基准测试数据下载:从 Hugging Face (https://huggingface.co/datasets/tdemin16/ProactiveBench/tree/main) 下载并解压测试集压缩包。
  • 训练数据获取:可通过 Hugging Face datasets 库直接加载训练分割(用于GRPO后训练): python from datasets import load_dataset train_dataset = load_dataset("tdemin16/ProactiveBench", split="train")

评估示例

代码仓库中提供了使用 LLaVA-OneVision 模型进行评估的示例代码,位于 proactivebench/tests 目录下,可作为评估其他模型的起点。

搜集汇总
数据集介绍
main_image_url
构建方式
在探索多模态大语言模型主动协作能力的背景下,ProactiveBench的构建采用了创新的基准测试方法。该数据集并非从零开始创建,而是巧妙地整合并重构了七个现有数据集,涵盖了对象识别、图像质量提升及草图理解等多种任务场景。其核心构建逻辑在于设计一种环境抽象,该环境封装了每个样本,能够动态追踪模型所见的图像、可执行的操作,并判断模型的响应属于正确预测还是主动建议。这种设计使得评估过程能够模拟真实交互,测试模型在面临信息不足时是否能够主动请求用户干预,例如要求移除遮挡物或提供不同视角。数据集的构建注重任务多样性与评估的严谨性,为系统性衡量模型的前摄性行为提供了结构化框架。
特点
ProactiveBench的显著特点在于其专注于评估多模态模型的“前摄性”行为能力,即模型在信息不完整时主动寻求简单用户干预的倾向。该基准测试集覆盖了广泛的任务类型,从识别遮挡物体到解释粗糙草图,确保了评估的全面性。其评估机制设计精妙,支持多选题和开放式生成两种模式,并引入了环境交互的概念,能够精确统计模型的预测准确率与主动建议率。一个关键发现是,模型的前摄性行为与其整体能力并不直接相关,且对话历史和上下文学习可能引入负面偏差。数据集还提供了用于强化学习微调的训练数据,表明这种能力可以通过学习获得并迁移到未见场景,为构建更具协作智能的模型指明了方向。
使用方法
为了利用ProactiveBench进行评估,研究者首先需要安装相应的Python包并从Hugging Face平台下载测试数据。评估过程围绕核心的“环境”抽象展开,该环境管理着每个样本的状态与交互。对于多选题评估,脚本会加载数据集、初始化环境,并在循环中获取当前状态、构建模型输入,随后解码模型的生成答案以更新环境并获取最终统计指标,如分类准确率和主动建议率。开放式生成评估则更为复杂,除了生成答案外,还需调用一个独立的评判模型来解析生成内容是否符合预期。数据集提供了基于LLaVA-OneVision的示例代码作为起点,研究者可替换为待评估的目标模型,并按照指引运行相应脚本,从而系统性地测试和比较不同模型的前摄性表现。
背景与挑战
背景概述
ProactiveBench 是2025年由 Thomas De Min、Subhankar Roy、Stéphane Lathuilière、Elisa Ricci 和 Massimiliano Mancini 等研究人员共同构建的多模态大语言模型(MLLM)基准测试数据集。该数据集旨在探索模型在面临信息不足或模糊情境时,能否主动向用户请求干预以提升决策准确性,从而模拟人类协作中的前瞻性行为。其核心研究问题聚焦于评估和促进 MLLM 的“主动性”能力,涵盖对象识别、图像质量增强及草图理解等多个任务。通过整合七个现有数据集并重构其评估框架,ProactiveBench 为多模态人工智能领域引入了新的研究方向,对推动模型从被动响应向主动协作演进具有重要影响力。
当前挑战
ProactiveBench 所针对的领域挑战在于解决多模态大语言模型在信息不完整或模糊情境下缺乏主动求助能力的问题,例如在物体被遮挡、图像质量低下或草图粗糙时,模型往往直接给出错误预测而非请求澄清。构建过程中的挑战包括:如何从异构数据集中统一设计主动性评估标准,确保任务多样性与评估一致性;如何设计环境抽象机制以动态追踪模型状态与用户干预选项;以及如何克服对话历史和上下文学习可能带来的负面偏差,这些偏差意外地阻碍了模型主动性的表现。
常用场景
经典使用场景
在人工智能领域,多模态大语言模型(MLLMs)的协作能力日益受到关注,ProactiveBench作为一项专门设计的基准测试,其经典使用场景聚焦于评估模型在面临信息不完整或模糊情境下的主动求助行为。该数据集通过整合七个重构任务,如识别遮挡物体、提升图像质量及解读粗略草图,模拟了真实交互中模型需主动请求用户干预以获取关键信息的场景。研究者在标准评估流程中,利用该数据集系统性地测试模型是否能在答案不确定时,自发提出诸如请求不同视角或后续帧等建议,从而衡量其“主动性”表现,为模型行为分析提供了结构化实验平台。
解决学术问题
ProactiveBench的构建旨在解决多模态人工智能研究中一个关键学术问题:如何量化并提升模型在协作任务中的主动决策能力。传统模型往往被动处理给定输入,缺乏在信息不足时寻求补充的智能,这限制了其在人机交互等动态场景中的实用性。该数据集通过定义清晰的主动性指标,如建议率与预测准确性,使研究者能够实证检验模型是否具备类似人类的求助意识。其意义在于首次系统性地将主动性概念引入基准评估,揭示了现有MLLMs普遍缺乏该能力,且模型规模与主动性无直接关联,从而推动学界重新审视模型训练目标与评估体系,为开发更智能、协作型的多模态系统奠定理论基础。
衍生相关工作
围绕ProactiveBench衍生的经典研究工作,主要集中在探索提升模型主动性的方法学上。例如,原论文中基于强化学习的微调策略(GRPO)被证明能有效激发模型的求助行为,并展现出对未见场景的泛化能力,这为后续训练范式提供了新思路。同时,该数据集揭示了对话历史和上下文学习可能对主动性产生负面偏见,这一发现促使研究者重新评估提示工程与少样本学习在协作任务中的作用。此外,社区已开始借鉴其评估框架,开发针对特定领域(如机器人导航或远程协作)的主动性基准,进一步丰富了多模态模型行为研究的工具箱,推动了主动性人工智能这一新兴子领域的形成与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作