CHOP-En, CHOP-ZH

Name: CHOP-En, CHOP-ZH
Creator: 人民大学高灵人工智能学院
Published: 2025-03-06 02:56:16
License: 暂无描述

arXiv2025-03-06 更新2025-03-07 收录

下载链接：

https://github.com/Yuqi-Zhou/CHOP

下载链接

链接失效反馈

官方服务：

资源简介：

CHOP数据集由人民大学高灵人工智能学院和华为诺亚方舟实验室共同创建，包含CHOP-En和CHOP-ZH两个子数据集。CHOP-En基于Mobile-Agent-V2，涵盖10个应用程序，每个应用程序有3个难度级别。CHOP-ZH是首个带有用户规划过程的中文数据集，由10名标注员完成10个应用程序的200个日常使用指令。该数据集旨在评估计划代理生成的子任务的 quality。

The CHOP dataset was co-created by the Gaoling School of Artificial Intelligence, Renmin University of China and Huawei Noah's Ark Lab. It contains two subsets: CHOP-En and CHOP-ZH. CHOP-En is based on Mobile-Agent-V2, covering 10 applications, each with 3 difficulty levels. CHOP-ZH is the first Chinese dataset with user planning processes, where 10 annotators completed 200 daily usage instructions across 10 applications. This dataset aims to evaluate the quality of subtasks generated by planning agents.

提供机构：

人民大学高灵人工智能学院

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

CHOP-En和CHOP-ZH数据集的构建采用了基于人类行为的高频子任务提取方法。研究人员首先从人类执行的移动应用命令中收集高频子任务，然后通过动词提取、同义词聚类、摘要和频率过滤四个步骤对子任务进行标准化和筛选。动词提取步骤使用spaCy进行词性标注，仅保留动词来代表每个指令。同义词聚类步骤使用WordNet将具有语义相似性的单词分组到同义词集中。摘要步骤使用GPT-4对每个子任务对应的动作序列进行标准化总结。频率过滤步骤根据子任务在数据集中的出现频率进行排序，并保留排名前10位的子任务。这些经过筛选的子任务构成了“基础子任务”空间，任何任务都可以分解为独立基础子任务的组合。

特点

CHOP-En和CHOP-ZH数据集的特点在于它们使用了基于人类行为的高频子任务，这些子任务在多个应用中具有通用的操作逻辑，能够帮助用户快速适应新应用。数据集还包括每个子任务的文档，这些文档提供了标准化执行步骤和边界条件，有助于提高执行的有效性。此外，数据集还包含了用户规划过程的信息，使得研究人员可以评估由代理生成的子任务的质量。CHOP数据集在任务执行的有效性和效率方面都取得了显著的改进，超越了主流的视觉语言模型（VLM）辅助系统。

使用方法

CHOP数据集的使用方法是将用户指令分解为一系列可执行的子任务，这些子任务由计划代理生成，并由动作代理执行。计划代理负责将用户指令分解为子任务序列，而动作代理负责为每个子任务确定下一个可执行的动作。CHOP架构还包括一个基础子任务提取过程，该过程从人类执行的移动应用命令中提取高频子任务，并通过标准化和筛选来优化这些子任务。用户可以通过提供任务指令来使用CHOP数据集，CHOP系统将根据任务指令生成相应的子任务序列，并将其分解为可执行的动作序列。CHOP数据集还可以用于评估和改进视觉语言模型在移动应用操作中的规划和执行能力。

背景与挑战

背景概述

CHOP-En和CHOP-ZH数据集的研究背景是移动设备操作助手的发展。随着视觉语言模型（VLMs）的进步，移动设备操作助手可以模拟人类的动作，如点击或打字，以满足用户的需求。这些助手广泛应用于推荐、任务自动化和用户辅助等领域。当前基于VLM的移动操作助手可以分为三个层次：任务、子任务和动作。子任务层次是连接高级目标和低级可执行动作的关键层次，但面临着两个挑战：无效的子任务和低效的子任务。这些挑战源于VLM在多代理架构中缺乏在GUI场景中分解子任务的经验。为了解决这个问题，我们提出了一种新的移动助手架构，称为CHOP（Constrained High-frequency Optimized Planning）。我们的方法通过使用人类规划的子任务作为“基础向量”来克服VLM在GUI场景规划方面的不足。我们在英语和中文环境下对20个应用程序进行了评估，结果表明，我们的方法在有效性和效率方面都有显著提高。我们的数据集和代码可在https://github.com/Yuqi-Zhou/CHOP上获得。

当前挑战

CHOP-En和CHOP-ZH数据集相关的挑战包括：1）VLM在GUI场景中分解子任务的不足；2）构建过程中遇到的挑战，如收集基础子任务、合并类似子任务以保持正交性、以及为每个子任务提供文档以提高有效性和效率。

常用场景

经典使用场景

在移动设备操作中，CHOP-En 和 CHOP-ZH 数据集被广泛用于训练和评估视觉语言模型（VLM）驱动的移动操作助手。这些数据集通过提供用户指令、操作步骤和思考过程，为移动应用的操作提供了丰富的上下文信息。通过使用这些数据集，研究人员可以训练助手理解和执行用户指令，从而提高移动设备的自动化水平。

衍生相关工作

CHOP 数据集的提出促进了视觉语言模型在移动设备操作中的应用研究。一些相关的研究工作包括：构建基于 VLM 的移动操作助手框架，使用多智能体框架实现任务分解和执行，以及使用合成数据进行模型微调。这些研究工作进一步推动了移动设备自动化技术的发展。

数据集最近研究