ReVision Dataset

Name: ReVision Dataset
Creator: 德克萨斯大学奥斯汀分校信息学院, 耶鲁大学统计与数据科学系
Published: 2025-02-21 02:01:41
License: 暂无描述

arXiv2025-02-21 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/hsiangfu/multimodal_query_rewrites

下载链接

链接失效反馈

官方服务：

资源简介：

ReVision数据集是一个专门为视觉指令重写任务设计的多模态数据集，由德克萨斯大学奥斯汀分校信息学院和耶鲁大学统计与数据科学系创建。该数据集包含超过39000个示例，跨越14个领域，由图像、原始指令和重写指令组成的三元组构成。数据集旨在将复杂的多模态交互转化为纯文本指令，以便在保持隐私的同时，在设备上执行。数据来源于公共可用的学术数据集，通过GPT-4模型生成和验证指令，并经过人工评估以确保可靠性。

ReVision Dataset is a multimodal dataset specifically tailored for the visual instruction rewriting task, developed by the School of Information at The University of Texas at Austin and the Department of Statistics and Data Science at Yale University. It contains over 39,000 examples spanning 14 domains, structured as triplets consisting of images, original instructions, and rewritten instructions. The dataset aims to convert complex multimodal interactions into plain-text instructions, enabling on-device execution while preserving privacy. The data is sourced from publicly available academic datasets, with instructions generated and verified via the GPT-4 model, and subjected to human evaluation to ensure reliability.

提供机构：

德克萨斯大学奥斯汀分校信息学院, 耶鲁大学统计与数据科学系

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

ReVision数据集的构建基于对多模态交互中隐私保护的需求，特别是随着增强现实(AR)、虚拟现实(VR)和现代智能手机成为人机通信的主要界面。该数据集由超过39,000个示例组成，涵盖了14个领域，旨在训练轻量级且能够在设备上运行的指令重写视觉语言模型(VLM)。数据集的构建分为几个阶段：首先，定义了一个包含意图和参数的本体，然后收集了各种现实世界多模态交互场景的图像，包括书籍封面、产品包装、画作、手机屏幕截图、传单、招牌和地标。接着，使用GPT-4模型生成和精炼多模态指令，确保与视觉上下文的一致性。最后，通过人类评估验证重写的指令，确保语义的准确性和一致性。

特点

ReVision数据集的特点在于其专注于视觉指令重写，将多模态指令转化为纯文本命令，从而保护用户隐私。数据集涵盖了广泛的现实世界任务，包括14个不同的意图领域，如一般问题、网络搜索、设置提醒、发送消息等。此外，数据集还包括1,700张个人图像和39,000多个示例，具有80%-20%的训练-测试分割。数据集的构建考虑到了多模态交互中的挑战，如省略和指代消解，并使用GPT-4模型进行系统性的生成和精炼，确保了指令的重写质量和语义的一致性。

使用方法

ReVision数据集的使用方法包括预训练和微调视觉语言模型。首先，在图像字幕数据集上预训练一个紧凑的VLM，然后在该数据集上进行微调，以适应指令重写的任务。数据集的使用可以通过标准的自然语言生成(NLG)指标，如BLEU、METEOR和ROUGE进行评估，以及语义解析分析。实验结果表明，即使是一个量化版本的小型模型（存储占用小于500MB），也能有效地进行指令重写，从而实现隐私保护的多模态AI应用。ReVision数据集的发布，为研究人员提供了进行视觉指令重写研究的资源，并为开发轻量级、隐私保护的多模态交互系统提供了基础。

背景与挑战

背景概述

随着增强现实（AR）、虚拟现实（VR）以及配备强大相机的现代智能手机成为人机交互的主要界面，高效且保护隐私的多模态交互变得至关重要。ReVision数据集及其相关的研究旨在解决现有大型视觉语言模型（VLMs）在隐私保护和实时性方面的不足。该数据集由德克萨斯大学奥斯汀分校信息学院和耶鲁大学统计与数据科学系的研究人员共同创建，于2025年提出。ReVision的核心研究问题是开发一种轻量级的VLM，能够在不牺牲隐私的前提下，将多模态指令重写为纯文本命令，从而实现在设备上的无缝集成。该数据集的影响力在于推动了隐私保护的多模态AI应用的发展，为AR/VR和智能手机界面提供了安全的实时交互方式。

当前挑战

ReVision数据集及其相关研究面临的主要挑战包括：1) 领域问题挑战：如何在保护用户隐私的前提下，实现高效的多模态交互。现有的VLMs虽然功能强大，但往往依赖于云端处理，存在视觉隐私泄露和实时性差的问题。2) 构建挑战：构建一个轻量级的VLM，能够在不牺牲性能的前提下，实现指令重写功能。此外，数据集中图像的分辨率较低，可能导致模型难以捕捉到精细的文本细节，限制了模型的准确性和适用性。

常用场景

经典使用场景

ReVision数据集主要用于视觉指令重写任务，通过将多模态指令转换为纯文本命令，从而实现在设备端进行隐私保护的指令处理。这一场景的经典应用包括在增强现实(AR)、虚拟现实(VR)和现代智能手机等设备上，用户可以通过语音指令与数字和物理环境进行交互。例如，用户佩戴智能眼镜时，可以对着名片说“拨打这个号码”，或对着活动传单说“将此添加到我的日历”。这些任务导向的多模态指令需要AI模型能够解释视觉上下文，将指令重写为结构化文本，并在会话式AI框架中执行，同时保持用户隐私。

衍生相关工作

ReVision数据集的衍生相关工作包括开发轻量级的视觉语言模型(VLMs)，这些模型可以在设备端运行，而不需要将数据发送到云端。此外，ReVision数据集还可以用于开发视觉指令重写系统，这些系统可以将多模态指令转换为纯文本命令，从而实现在设备端进行隐私保护的指令处理。

数据集最近研究