ProactiveBench

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/submission1331/ProactiveBench

下载链接

链接失效反馈

官方服务：

资源简介：

ProactiveBench是一个与NeurIPS 2025提交的1331号作品相关的基准数据集，用于配合提出的提交环境。该数据集包含.jsonl格式的文件，这些文件包含图像路径模板而不是实际的图像路径，因为每个条目是一个样本，每个样本对应于具有自己图像的不同环境。数据集适用于问答任务，支持英语，大小在10K到100K之间。标签包括Proactive、Reasoning、Multimodal和LLM。

ProactiveBench is a benchmark dataset associated with Submission #1331 at NeurIPS 2025, intended to work alongside the proposed submission environment. This dataset comprises .jsonl-format files that contain image path templates rather than actual image paths, as each entry is a sample, with every sample corresponding to a distinct environment with its own unique images. The dataset is intended for question answering tasks, supports English, and has a size ranging from 10K to 100K. Its labels include Proactive, Reasoning, Multimodal, and LLM.

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

ProactiveBench作为多模态推理领域的基准测试集，其构建过程体现了严谨的学术规范。数据集整合了ChangeIt、OcclusionDataSet-MM20、coco2014等七个知名视觉数据集的预处理版本，通过统一的jsonl格式进行重构。每个样本对应独立的环境配置，采用图像路径模板机制实现动态加载，这种设计既保留了原始数据集的特性，又确保了评估环境的一致性。数据预处理流程遵循严格的学术标准，相关细节在配套代码库中完整呈现。

特点

该数据集最显著的特征在于其面向主动推理任务的多模态融合能力。涵盖视觉问答、遮挡识别、快速绘图等多个子领域，样本规模控制在十万量级，兼具多样性与可管理性。数据集特别强调环境交互的动态特性，每个样本关联独立的环境实例，为评估模型在复杂场景下的主动推理能力提供了理想平台。采用CC-BY-NC-4.0许可协议，既保障了学术使用的开放性，又合理维护了数据权益。

使用方法

使用该基准测试集需要配合专用评估环境，通过加载预处理的jsonl模板文件启动测试流程。研究人员需参照源代码库中的指导文档，完成数据下载与环境配置工作。评估时系统会动态解析路径模板，加载对应环境的图像数据。这种设计使得单个样本可适配不同实验场景，为验证模型在多样化条件下的表现提供了技术保障。建议结合NeurIPS 2025会议论文中的方法论框架进行系统性评估。

背景与挑战

背景概述

ProactiveBench作为NeurIPS 2025数据集与基准赛道的标志性成果，由匿名研究团队构建，旨在推动多模态推理与大型语言模型（LLM）的前沿研究。该数据集整合了ChangeIt、OcclusionDataSet-MM20、coco2014等七个子集，覆盖图像遮挡、快速绘图、现实场景干扰等复杂情境，通过精心设计的路径模板机制支持动态环境生成。其科学价值体现在为主动推理任务提供了首个系统化评估框架，弥补了传统基准在环境交互与多模态时序推理方面的不足。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态主动推理中环境动态性与语义连贯性的平衡难题，尤其当处理QuickDraw简笔画与ImageNet-C对抗样本时，模型需同时具备实时适应与跨模态对齐能力；在构建层面，异构子集的标准化整合消耗大量计算资源，而路径模板机制虽增强灵活性，却导致真实图像检索复杂度呈指数级增长，且cc-by-nc-4.0协议限制了商业场景的应用拓展。

常用场景

经典使用场景

在计算机视觉与多模态推理领域，ProactiveBench数据集通过整合ChangeIt、OcclusionDataSet-MM20等多样化子集，为研究者提供了一个评估模型在动态环境中主动推理能力的标准化平台。其独特的路径模板设计模拟了真实场景中图像路径的动态变化，特别适合测试模型在图像遮挡、内容变更等复杂条件下的鲁棒性。

衍生相关工作

基于该数据集构建的评估范式已催生多项突破性研究，包括NeurIPS 2025展示的主动推理架构PROACT，以及后续改进的Dynamic-VQA框架。其提供的标准化环境接口更促进了MMMU、EmbodiedQA等基准测试体系的跨数据集可比性研究。

数据集最近研究