five

MisActBench

收藏
Hugging Face2026-02-10 更新2026-02-11 收录
下载链接:
https://huggingface.co/datasets/osunlp/MisActBench
下载链接
链接失效反馈
官方服务:
资源简介:
MisActBench 是一个用于评估计算机使用代理(CUAs)中未对齐动作检测的综合基准数据集。该数据集包含 558 条真实的 CUA 轨迹,共计 2,264 个人工标注的动作级对齐标签,涵盖了外部诱导和内部产生的未对齐动作。数据集分为两个主要文件:`misactbench.json` 包含所有轨迹元数据、步骤级标签和动作输出,`trajectories.zip` 包含按轨迹 ID 组织的截图图像。数据集中对齐步骤有 1,264 个,未对齐步骤有 1,000 个,分为三类:恶意指令遵循(56.2%)、有害无意行为(21.0%)和其他任务无关行为(22.8%)。每个步骤的标注包括步骤索引、标签(未对齐/对齐/未标注)、类别(仅当标签为未对齐时设置)、代理输出和截图路径。该数据集适用于计算机使用代理的安全性、对齐性和基准测试研究。
提供机构:
OSU NLP Group
创建时间:
2026-02-07
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机使用智能体领域,评估模型行为对齐性至关重要。MisActBench的构建过程严谨而系统,研究者收集了558条真实场景下的智能体操作轨迹,涵盖多样化的用户指令与环境交互。通过人工标注方式,对总计2264个操作步骤进行了精细的粒度标注,区分对齐与未对齐行为,并进一步将未对齐行为归类为恶意指令遵循、有害意外行为及其他任务无关行为三大类别。数据来源多元,确保了轨迹的真实性与复杂性,为后续分析奠定了坚实基础。
特点
该数据集的核心特征在于其全面性与精细度。它不仅提供了大规模的操作步骤标注,更通过详尽的分类体系揭示了未对齐行为的内在机理。数据集中包含1000个被标记为未对齐的步骤,其中恶意指令遵循占比56.2%,有害意外行为占21.0%,任务无关行为占22.8%,这种分布反映了实际应用中可能遇到的风险频谱。此外,数据集配套了每一步操作前的屏幕截图,形成了多模态的数据结构,使得研究者能够结合视觉上下文进行深入分析,增强了评估的维度与深度。
使用方法
研究者可通过下载数据集文件快速开展评估工作。核心数据存储于misactbench.json文件中,该文件以轨迹ID为键,结构化地包含了指令、步骤数、元数据及每一步的标签、类别、智能体输出和截图路径。配套的trajectories.zip压缩包则提供了按轨迹组织的屏幕截图图像。使用时可先解析JSON文件获取标注信息,再结合对应路径的截图进行多模态分析。该数据集适用于训练或测试计算机使用智能体的安全对齐检测模型,支持对模型在复杂交互中产生的未对齐行为进行系统性评估与纠正研究。
背景与挑战
背景概述
随着计算机使用代理(CUA)在自动化任务执行中的广泛应用,其行为对齐问题日益凸显,尤其是在面对恶意指令或内在推理缺陷时,代理可能执行偏离用户意图的错位行动。MisActBench由俄亥俄州立大学NLP研究团队于2026年创建,旨在系统评估CUA的错位行动检测能力。该数据集包含558条真实轨迹和2,264个人工标注的行动级对齐标签,覆盖恶意指令遵循、有害意外行为及其他任务无关行为三大类别,为提升CUA的安全性和可靠性提供了关键基准。
当前挑战
MisActBench针对的领域挑战在于准确识别计算机使用代理在复杂交互环境中的错位行动,这要求模型不仅能理解用户指令的语义,还需在动态界面中推理行动后果,区分恶意遵循与无意偏差。数据构建过程中,挑战主要源于真实轨迹的收集与标注:需模拟多样化的人机交互场景,确保轨迹覆盖外部诱导与内部引发的错位行为;同时,人工标注需精确界定行动的对齐状态与具体类别,处理模糊边界案例,保证标注的一致性与可解释性。
常用场景
经典使用场景
在计算机使用代理(CUA)的评估领域,MisActBench数据集为检测智能体行为失准提供了标准化的测试平台。该数据集通过558条真实轨迹和2,264个人工标注的动作级标签,系统性地涵盖了恶意指令遵循、有害无意行为等典型失准类别,使研究者能够量化评估代理在复杂交互环境中的对齐性能。
衍生相关工作
基于该数据集衍生的经典研究包括多模态失准行为检测框架的构建与评估协议标准化工作。相关研究扩展了时序推理与视觉-动作对齐模型的设计,促进了如《When Actions Go Off-Task》等论文提出的纠正机制的发展,为后续动态安全监控系统的研发提供了数据与方法论支撑。
数据集最近研究
最新研究方向
随着计算机使用代理在复杂人机交互场景中的广泛应用,其行为对齐问题已成为人工智能安全领域的前沿焦点。MisActBench作为首个专注于动作级错位检测的基准数据集,近期研究围绕多模态轨迹分析展开,通过结合屏幕截图与动作序列,深入探索代理在恶意指令遵循、有害无意行为等类别中的行为模式。该数据集推动了基于视觉-语言融合的检测模型发展,并促进了对抗性环境下的鲁棒性评估,为构建安全可靠的自主智能系统提供了关键的理论与实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作