MindWatcher-Evaluate Bench (MWE-Bench)

Name: MindWatcher-Evaluate Bench (MWE-Bench)
Creator: 理想汽车
Published: 2025-12-29 20:16:12
License: 暂无描述

arXiv2025-12-29 更新2025-12-31 收录

下载链接：

https://huggingface.co/datasets/Lost-Cloud/MWE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MWE-Bench是由理想汽车开发的综合性多模态评估基准，旨在系统评估智能代理在多模态工具调用和推理任务中的性能。该数据集包含高质量的人工标注数据及自动化构建的图文对，涵盖人物、动物、植物、汽车等八大类别的大规模本地视觉检索语料库。其构建过程结合了自动化数据审核流程和手动精选策略，支持跨模态细粒度推理。该数据集主要应用于增强语言模型的工具集成推理能力，解决传统代理在开放域环境中适应性不足、视觉检索依赖外部API等核心问题。

MWE-Bench is a comprehensive multimodal evaluation benchmark developed by Li Auto, which aims to systematically evaluate the performance of AI Agents in multimodal tool calling and reasoning tasks. This dataset includes high-quality manually annotated data and automatically constructed image-text pairs, forming a large-scale local visual retrieval corpus covering eight major categories such as humans, animals, plants, and automobiles. Its construction integrates automated data review procedures and manual screening strategies, supporting cross-modal fine-grained reasoning. This dataset is mainly applied to enhance the tool-integrated reasoning capabilities of language models, solving core problems including the insufficient adaptability of traditional agents in open-domain environments and the reliance of visual retrieval on external APIs.

提供机构：

理想汽车

创建时间：

2025-12-29

原始信息汇总

MWE-Bench 数据集概述

基本信息

数据集名称：MWE-Bench
托管平台：Hugging Face
数据集地址：https://huggingface.co/datasets/Lost-Cloud/MWE-Bench
许可证：Apache License 2.0

许可证说明

本数据集采用 Apache License 2.0 许可证发布。

搜集汇总

数据集介绍

构建方式

在智能体与工具集成推理领域，MWE-Bench的构建遵循了严谨的基准设计原则，旨在精准评估多模态智能体的工具调用与推理能力。其构建过程采用了多阶段、多源数据融合的策略，核心数据来源于两个主要渠道：一是基于内部私有图像数据库，通过知识条目扩展、网络信息补充及模型驱动的“唯一性解构”方法，生成复杂的多步推理任务；二是基于体育新闻等开源领域，通过时间感知的多模态问答管道进行采集、语义审核与约束感知的生成。为确保评估的公正性与泛化性，基准严格避免了训练集与测试集在知识条目上的重叠，所有生成样本均经过自动化模型过滤与人工专家评审的双重验证，最终形成了涵盖汽车、动物、植物、人物、地标和体育六大类别、共计1416个高质量实例的评估集。

特点

MWE-Bench作为评估工具集成推理智能体的专业基准，其核心特点在于对多模态、长链条及工具依赖性推理任务的全方位覆盖。基准问题设计紧密耦合视觉感知与外部知识检索，要求智能体必须协同调用图像处理、视觉搜索、文本检索等多种工具才能完成解答，从而有效检验其跨模态信息整合与自主规划能力。此外，基准特别强调了任务的时效性与事实唯一性，通过严格的数据清洗流程过滤了模糊或过时的问题，确保了评估信号的准确性与可靠性。其类别分布均衡，既包含对通用对象（如动植物）的细粒度识别，也涉及对动态事件（如体育赛事）的实时信息查询，为衡量智能体在开放域环境中的实际应用潜力提供了多维度的测评尺度。

使用方法

使用MWE-Bench进行评估时，需将待测智能体置于模拟的真实工具调用环境中。评估框架通常遵循ReAct或自主智能体范式，允许模型在推理过程中交替进行内部思考与外部工具调用。具体而言，智能体接收包含图像和文本的复杂查询后，可自主决定是否及如何调用基准支持的工具箱，包括区域裁剪/缩放、对象定位与视觉搜索、外部文本检索、网页内容提取及本地代码解释器等。智能体的输出需包含交织的思考过程、工具调用序列及最终答案。评估指标主要采用基于大语言模型的评判方法（LLM-as-Judge）计算pass@1准确率，通过对比智能体输出与标准答案在核心事实层面的一致性来量化其性能。该使用方法旨在模拟智能体在解决实际跨模态问题时的端到端决策与执行流程。

背景与挑战

背景概述

MindWatcher-Evaluate Bench (MWE-Bench) 是由理想汽车（Li Auto Inc）的MindGPT-ov团队于2025年12月发布的多模态智能体评估基准。该数据集的构建旨在系统性地评估工具集成推理（Tool-Integrated Reasoning, TIR）智能体在复杂、开放域环境下的多模态感知、自主规划与工具调用能力。其核心研究问题聚焦于突破传统工作流智能体的局限，推动能够自主进行交错式思考与多模态链式推理的通用智能体发展。MWE-Bench的建立为衡量智能体在结合视觉、文本与外部工具进行多步决策时的性能提供了严谨的量化标准，对推动具身智能与通用人工智能（AGI）的研究具有重要的里程碑意义。

当前挑战

MWE-Bench所针对的核心领域挑战在于如何准确评估智能体在解决需要融合多模态信息与外部工具的长尾、细粒度知识问题时的真实能力。这要求基准不仅测试模型的内部知识，更要剥离其对特定工具或数据分布的依赖，独立衡量其规划与执行的核心推理能力。在构建过程中，研究团队面临多重挑战：首先，确保评估样本的时效性与答案唯一性，避免因网络信息动态变化或问题开放性导致评估失真；其次，设计能够有效触发多轮工具调用与跨模态推理的复杂任务，同时避免与训练数据发生领域重叠，防止性能虚高；最后，需构建一个覆盖汽车、动植物、人物、地标、体育等多个垂直领域的高质量、大规模本地视觉检索库，以支持低成本、高精度的视觉搜索评估，减少对昂贵外部API的依赖。

常用场景

经典使用场景

在智能体与工具集成推理的研究领域，MWE-Bench作为一项精心构建的评估基准，其经典使用场景聚焦于系统性地衡量多模态智能体在复杂、开放域任务中的工具调用与推理能力。该基准覆盖汽车、动物、植物、人物、地标及体育等六个核心领域，通过设计需要多步骤视觉感知、外部知识检索与跨模态整合的问答任务，为研究者提供了一个标准化、可复现的测试平台。它尤其适用于评估智能体如何通过交替思考与工具调用，自主规划并执行长链条的推理过程，从而精准量化其在真实世界环境中的问题解决效能。

解决学术问题

MWE-Bench的构建直接回应了工具集成推理智能体研究中的若干关键挑战。它首先解决了评估标准缺失的问题，为多模态智能体的工具使用与推理能力提供了首个系统性的量化基准。其次，该数据集通过其严谨的构造方法，有效隔离了模型内部世界知识与纯粹工具调用能力对评估结果的混淆，使得研究者能够更清晰地诊断智能体在规划、执行与跨模态整合方面的真实瓶颈。此外，基于该基准的实验揭示了智能体强化学习中的‘遗传继承’现象，即智能体的长程推理性能上限受其基础模型能力制约，这一发现为理解智能体训练的底层机制提供了重要洞见。

衍生相关工作

围绕MWE-Bench及其背后的MindWatcher智能体，已衍生出多个具有影响力的研究方向与经典工作。在模型架构方面，基于MindWatcher-32B模型蒸馏出的2B、3B和4B小型化智能体，证明了高效工具调用能力可弥补小参数模型的知识缺陷。在训练方法论上，该工作推动了对纯强化学习策略在工具集成智能体训练中应用的深入探索，并与基于监督微调的方法形成对比。同时，其揭示的‘遗传继承’现象激发了后续研究对基础模型能力与智能体性能边界之间关系的持续探讨。这些工作共同推动了多模态工具集成智能体向更高效、更实用方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集