Mobile app Tasks with Iterative Feedback (MoTIF)

Name: Mobile app Tasks with Iterative Feedback (MoTIF)
Creator: 波士顿大学
Published: 2022-08-15 08:24:24
License: 暂无描述

arXiv2022-08-15 更新2024-06-21 收录

下载链接：

https://github.com/aburns4/MoTIF

下载链接

链接失效反馈

官方服务：

资源简介：

MoTIF是由波士顿大学创建的一个新型视觉语言导航数据集，专注于移动应用中的自然语言指令执行。该数据集包含6100条指令，涵盖了多种应用环境和复杂的操作序列，首次引入了指令可行性标注，包括二元可行性标签和细粒度的不可行原因标签。MoTIF旨在解决移动应用中指令执行的不确定性问题，通过迭代反馈机制，推动视觉语言导航技术在实际应用中的发展。数据集的应用领域广泛，包括移动应用设计、人机交互和文档理解等，为研究提供了丰富的资源和挑战。

MoTIF is a novel visual-language navigation dataset developed by Boston University, focusing on natural language instruction execution in mobile applications. This dataset includes 6,100 instructions covering diverse application scenarios and complex operation sequences, and introduces, for the first time, instruction feasibility annotations comprising binary feasibility labels and fine-grained infeasibility cause labels. MoTIF aims to address the uncertainty issue in instruction execution within mobile applications, and promotes the development of visual-language navigation technologies in real-world applications via an iterative feedback mechanism. The dataset has broad application domains including mobile application design, human-computer interaction and document understanding, providing abundant resources and research challenges for relevant studies.

提供机构：

波士顿大学

创建时间：

2022-02-05

搜集汇总

数据集介绍

构建方式

MoTIF数据集的构建方式独特，专注于在移动应用环境中完成自然语言指令的任务。该数据集通过收集专家演示来实现，每个时间步长捕获应用屏幕、应用后端视图层次结构以及所采取的操作类型和位置。这种详细的记录方式确保了数据集的高质量和高真实性，使其成为研究视觉语言导航（VLN）在实际应用中可行性的理想选择。

特点

MoTIF数据集的主要特点在于其包含了可行和不可行的请求，这是现有VLN数据集中所没有的。此外，数据集还收集了关于任务为何不可行的细粒度标签和自然语言的后续问题，以支持任务不确定性解决的研究。这些特性使得MoTIF成为研究交互式任务可行性和视觉语言导航在移动应用中实际应用的宝贵资源。

使用方法

MoTIF数据集的使用方法多样，主要用于研究视觉语言导航中的任务可行性预测和自动化。研究者可以利用该数据集训练模型来预测自然语言指令在特定应用环境中的可行性，并评估现有方法在处理新应用环境时的泛化能力。此外，数据集还可用于开发和测试新的视觉语言导航算法，特别是在处理复杂和多样化的移动应用任务时。

背景与挑战

背景概述

Mobile app Tasks with Iterative Feedback (MoTIF) 数据集由 Andrea Burns 等研究人员于 2022 年创建，旨在解决视觉语言导航（VLN）中指令可行性未知的问题。该数据集专注于在移动应用环境中完成自然语言指令的任务，提供了指令可行性的二元标签和细粒度标签，以及针对模糊查询的后续问题，以支持任务不确定性解决的研究。MoTIF 是首个包含可行性注释的 VLN 数据集，为研究任务可行性预测提供了丰富的多模态环境，对视觉语言导航领域的研究具有重要影响。

当前挑战

MoTIF 数据集面临的挑战主要包括：1) 解决指令在视觉环境中可行性的问题，这在实际应用中由于语言模糊性或环境变化可能导致指令不可行；2) 数据集构建过程中，如何准确标注指令的可行性以及收集高质量的后续问题，以确保数据集的实用性和研究价值。此外，如何在多模态环境中有效整合视觉和语言信息，以提高任务可行性预测的准确性，也是该数据集需要克服的重要技术难题。

常用场景

经典使用场景

MoTIF数据集的经典使用场景在于研究视觉-语言导航（VLN）任务中的未知命令可行性问题。该数据集通过收集移动应用中的自然语言命令及其可行性标注，为研究如何在实际应用中处理可能不可行的命令提供了丰富的资源。研究者可以利用MoTIF数据集开发和评估模型，以预测给定命令在特定应用环境中的可行性，并进一步研究如何通过迭代反馈机制来解决任务不确定性。

解决学术问题

MoTIF数据集解决了在视觉-语言导航任务中，命令可行性未知的问题。传统的VLN研究假设输入命令在环境中是完全可行的，但在实际应用中，由于语言模糊性或环境变化，请求可能无法实现。MoTIF通过引入可行性标注，帮助研究者理解和处理这些复杂情况，推动了VLN领域的发展，并为任务不确定性解决提供了新的研究方向。

衍生相关工作

MoTIF数据集的发布催生了一系列相关研究工作，特别是在视觉-语言导航和任务自动化领域。例如，研究者们基于MoTIF开发了新的任务可行性预测模型，并探索了多模态特征在任务可行性分类中的作用。此外，MoTIF还激发了对移动应用界面设计和人机交互的研究，推动了跨学科的合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集