FieldWorkArena

Name: FieldWorkArena
Creator: 富士通有限公司, 美国, 卡内基梅隆大学
Published: 2025-05-26 16:21:46
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://en-documents.research.global.fujitsu.com/fieldworkarena/

下载链接

链接失效反馈

官方服务：

资源简介：

FieldWorkArena是一个针对真实世界现场工作的代理AI基准测试数据集，由富士通有限公司、美国富士通研究所和卡内基梅隆大学联合创建。数据集包含超过40种类型的数据（视频、工作手册）和约400个现场特定查询，这些查询来自两个实际的现场场景（工厂和仓库），以及我们手动注释的地面真实数据。数据集内容涵盖了规划、观察、行动等多个方面的任务，旨在评估代理AI在现实世界中的性能。数据集的创建过程基于与现场工人和管理人员的访谈，以确保数据集的真实性和实用性。FieldWorkArena数据集可用于训练现有的多模态大型语言模型（MLLM）或正在开发的代理AI，以及进行定量评估和比较。

提供机构：

富士通有限公司, 美国, 卡内基梅隆大学

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

FieldWorkArena数据集的构建基于真实工厂和仓库环境中的多模态数据采集，包括视频、图像及工作文档。研究团队通过现场安装的摄像头捕捉工作场景，并对视频数据进行分段处理，生成61段工厂视频和25段仓库视频，同时提取了31张工厂图像和61张仓库图像。工作文档则经过脱敏处理，移除敏感信息后整合为任务清单和操作手册。数据标注过程采用三重校验机制，确保标注标准的一致性。

特点

该数据集的核心特点在于其真实场景下的多模态任务设计，涵盖规划、感知与行动三大类任务，共包含455个具体任务实例。其独特之处在于定义了包含14种工具调用的智能体动作空间，支持对安全规范违反检测、个人防护装备识别等复杂场景的评估。数据集特别设计了长视野任务（Long Horizon Tasks），要求智能体连续执行多阶段操作，平均需调用5.1个动作空间，有效模拟现实工作中的复合型任务需求。

使用方法

使用FieldWorkArena需通过BrowserGym框架加载数据集，智能体需处理视频帧序列（短视频1fps采样，长视频30帧均匀采样）及文档数据。评估时采用改进的模糊匹配算法，输出结果分为完全正确、部分正确和错误三类，其中部分正确结果根据数值差异度（距离/时间误差）或元素匹配度（项目完整性）给予0-1之间的评分。最终得分通过加权计算语义准确性（Ψ=0.5）与数值精确性得出，支持对多模态大语言模型在工业场景下的细粒度性能评估。

背景与挑战

背景概述

FieldWorkArena是由富士通有限公司和卡内基梅隆大学于2025年联合推出的多模态智能体基准测试数据集，旨在评估AI智能体在真实工业场景中的任务执行能力。该数据集聚焦制造业和物流领域，包含来自工厂和仓库的现场视频、图像及操作文档等40余类数据，构建了涵盖规划、感知和行动三大类任务的评估体系。作为首个面向实地作业环境的智能体基准，FieldWorkArena通过定义包含空间计算、模糊匹配等复杂动作空间，解决了现有基准局限于虚拟网络环境的不足，为智能体在动态复杂场景中的三维空间理解、长时程任务规划等能力评估提供了标准化平台。

当前挑战

FieldWorkArena面临的核心挑战体现在两个方面：在领域问题层面，需解决工业场景中多模态数据融合的复杂性，包括从单目监控视频理解三维空间关系、跨模态（视觉-文本）的规则匹配，以及长时程任务中的记忆保持与子任务协调等难题；在构建过程中，数据采集需平衡隐私保护与信息完整性，视频中的人脸和敏感区域模糊处理可能影响动作识别精度，且现场文档的语义标注存在专业术语理解偏差风险。此外，评估体系设计需克服传统二值判定的局限性，针对部分正确答案和数值近似结果开发了加权评分算法，但实验显示现有大语言模型在时空计算和复杂任务分解方面仍存在显著性能瓶颈。

常用场景

经典使用场景

FieldWorkArena数据集在智能制造和物流领域具有广泛的应用前景，尤其在工业自动化和安全监控方面表现突出。该数据集通过整合工厂和仓库的实际视频、图像及文档数据，为智能代理提供了丰富的多模态输入，使其能够执行复杂的任务，如安全规则违规检测、个人防护装备（PPE）佩戴状态检查以及工作流程偏离识别。这些任务不仅涵盖了规划、感知和行动三个关键阶段，还通过长视野任务（Long Horizon Tasks）实现了多阶段任务的连贯执行，从而全面评估智能代理在真实工作环境中的表现。

解决学术问题

FieldWorkArena数据集解决了当前智能代理研究中的多个关键学术问题。首先，它填补了现有基准测试在真实工作环境评估上的空白，使得研究者能够更全面地验证智能代理在复杂动态场景中的适应能力。其次，通过定义新的动作空间和评估函数，该数据集提升了智能代理在多模态数据处理、任务规划和实时反馈方面的性能评估精度。此外，数据集还针对智能代理在模糊任务中的推理能力提出了新的评估指标，为相关研究提供了重要的技术参考。

衍生相关工作

FieldWorkArena数据集的发布推动了多个相关研究领域的发展。基于该数据集，研究者们开发了多种新型多模态大语言模型（MLLM），如SpatialRGPT，这些模型在3D空间感知和复杂任务规划方面表现出色。此外，数据集还催生了一系列针对边缘计算优化的轻量级智能代理，进一步拓展了实时反馈和自动化报告的应用场景。这些衍生工作不仅验证了数据集的实用性，也为工业智能化的未来发展奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集