MLA-Trust

Name: MLA-Trust
Creator: 清华大学
Published: 2025-06-02 20:56:27
License: 暂无描述

arXiv2025-06-02 更新2025-06-06 收录

下载链接：

https://mla-trust.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

MLA-Trust是一个用于评估多模态大型语言模型（MLLM）代理在图形用户界面（GUI）环境中的可信度的框架。该框架涵盖了四个原则性维度：真实性、可控性、安全和隐私。数据集由34个高风险的交互式任务组成，旨在测试MLLM代理在不同环境下的可信度。数据集的创建旨在解决MLLM代理在现实世界应用中的可信度问题，如网络自动化、医疗辅助和金融交易系统。数据集通过自动化日志记录、GUI仪器和信任度指标计算等模块化评估流程进行评估。

提供机构：

清华大学

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

MLA-Trust数据集通过精心设计的34个高风险交互任务，在真实网站和移动应用环境中构建而成。研究团队采用统一评估框架，覆盖真实性、可控性、安全性和隐私性四个核心维度。数据收集过程结合了手工构建和GPT-4o生成的方法，确保任务场景的多样性和现实相关性。特别设计了预定义流程和上下文推理两类任务，以全面评估多模态LLM代理在不同交互模式下的可信赖性。

特点

该数据集具有三个显著特点：首先，创新性地提出了GUI环境下多模态代理的可信赖性评估框架，填补了传统基准测试的空白；其次，包含网站和移动端双环境测试，涵盖电子商务、社交平台等真实应用场景；最后，通过模块化工具箱设计支持自动化评估流程，确保实验的可重复性和可扩展性。数据集特别关注多步执行中的风险累积现象和跨应用场景的衍生风险。

使用方法

使用MLA-Trust时需遵循标准化评估流程：首先通过统一接口加载待测代理模型，然后分别在网站和移动环境执行预设任务。评估过程自动记录代理的GUI操作、生成内容和系统状态变化。最终采用客观指标（如准确率）和主观指标（如毒性评分）相结合的方式，通过模块化评估组件计算四个维度的信任分数。研究团队提供开源工具箱支持自定义任务扩展和新型代理评估。

背景与挑战

背景概述

MLA-Trust是由清华大学与华东师范大学的研究团队于2025年提出的首个针对多模态大语言模型代理（MLAs）可信度的综合评估框架。该数据集聚焦GUI环境下的智能代理行为，系统性地从真实性、可控性、安全性和隐私性四个维度构建了34个高风险交互任务，覆盖网站和移动应用两大典型场景。作为多模态代理可信评估领域的开创性工作，MLA-Trust通过设计包含医疗、金融等关键领域的测试用例，揭示了传统MLLM评估体系无法捕捉的动态交互风险，为智能代理的安全部署建立了新的评估标准。

当前挑战

MLA-Trust面临的核心挑战体现在：1) 领域问题层面需解决多模态代理在动态环境中产生的行为风险评估难题，包括可执行输出带来的状态修改、长时域不确定性导致的错误累积等传统文本模型未涉及的风险维度；2) 构建过程中需克服多模态攻击向量建模、跨应用隐私泄露检测等技术创新挑战，同时需平衡真实场景复杂性与评估可重复性，设计兼顾网站DOM结构和移动端传感器数据的统一评测框架。

常用场景

经典使用场景

MLA-Trust数据集在评估多模态大型语言模型代理（MLAs）的可信度方面具有经典应用场景。该数据集通过设计34个高风险交互任务，覆盖了网页和移动应用两大真实测试环境，广泛应用于评估MLAs在真实性、可控性、安全性和隐私性四个维度的表现。其典型使用场景包括金融交易、医疗辅助和电子商务等高风险领域，为研究者和开发者提供了系统化的评估工具。

解决学术问题

MLA-Trust数据集解决了多模态LLM代理在动态交互环境中可信度评估的关键学术问题。传统基准测试主要关注静态语言模型的安全性，而MLA-Trust首次系统性地量化了MLAs在可执行输出、长时域不确定性和多模态攻击向量等新型风险。该数据集通过建立四维评估框架，填补了交互式代理在多步决策、环境状态修改和实际后果触发等研究空白，为可信自主代理的理论研究提供了实证基础。

衍生相关工作

MLA-Trust数据集衍生了一系列经典研究工作。基于其构建的评估框架，后续研究提出了针对GUI代理的新型对抗攻击检测方法（如VisualWebArena-Adv）和动态安全监测系统。数据集揭示的多模态代理特有风险模式，启发了包括AgentSafetyBench和MobileSafetyBench等垂直领域基准的建立。此外，其开源的模块化工具箱为社区持续扩展评估维度（如新增AR/VR环境测试）提供了基础设施。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集