MTVLP

Name: MTVLP
Creator: 清华大学深圳国际研究生院
Published: 2025-02-17 23:32:14
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11918v1

下载链接

链接失效反馈

官方服务：

资源简介：

MTVLP是一个多任务视觉语言偏好数据集，建立在Meta-World之上。该数据集通过收集在三种优化水平（专家、中等、随机）下的轨迹和相应的语言指令，定义了清晰的语言条件偏好关系。数据集旨在为具身操纵任务提供准确的偏好反馈，并能够推广到未见过的任务和语言指令。

MTVLP is a multi-task visual-language preference dataset built upon Meta-World. This dataset collects trajectories and corresponding language instructions under three optimization levels: expert, medium, and random, and defines clear language-conditioned preference relationships. It aims to provide accurate preference feedback for embodied manipulation tasks, and can generalize to unseen tasks and language instructions.

提供机构：

清华大学深圳国际研究生院

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

MTVLP数据集的构建采用了基于视觉-语言偏好的学习方法。该数据集通过收集在不同语言指令下的视频轨迹，并定义了三种类型的语言条件偏好，即任务内偏好（ITP）、跨语言偏好（ILP）和跨视频偏好（IVP）。这些偏好关系隐含在视频轨迹的优度与视觉-语言对应关系中，无需人工标注。数据集构建过程中，使用了预训练的CLIP模型作为视频和语言编码器，并利用交叉模态Transformer进行模态间的特征融合，以学习轨迹级别的偏好模型。

特点

MTVLP数据集的特点在于其包含多任务的视频-语言偏好数据，能够提供对机器人操作任务的通用偏好反馈。数据集包含丰富的隐式偏好顺序，无需人工标注，具有高效率和低成本的优势。此外，该数据集能够适应未见的任务和语言指令，具有良好的泛化能力。数据集的构建方法使得偏好模型能够学习到与语言相关的特征，并作为偏好标注器在各种下游任务中发挥作用。

使用方法

MTVLP数据集的使用方法包括以下步骤：首先，通过视频编码器和语言编码器提取视频和语言特征；其次，利用交叉模态Transformer进行特征融合，以学习轨迹级别的偏好模型；最后，利用学习到的偏好模型对目标任务和未见语言指令进行偏好标注。偏好标注结果可用于下游的偏好优化算法，以促进策略学习。实验结果表明，MTVLP数据集能够提供准确的偏好反馈，并能够泛化到未见任务和未见语言指令，优于基线方法。

背景与挑战

背景概述

MTVLP数据集是清华大学深圳国际研究生院、中国电信人工智能研究院和伦敦国王学院的研究人员于2025年提出的，旨在解决强化学习中奖励工程的关键挑战。该数据集基于Meta-World构建，包含多个任务的轨迹视频和语言指令，旨在学习一个视觉语言偏好模型，为具身操作任务提供偏好反馈。MTVLP数据集的提出，为偏好强化学习领域带来了新的研究方向，推动了该领域的发展。

当前挑战

MTVLP数据集主要解决偏好强化学习中奖励工程的关键挑战，包括如何有效地收集人类偏好标签、如何设计准确的奖励函数以及如何避免智能体对奖励函数进行破解等。此外，在构建过程中，MTVLP数据集也面临着如何定义语言条件偏好、如何学习跨模态特征以及如何提高模型的泛化能力等挑战。

常用场景

经典使用场景

VLP 数据集主要应用于基于视觉和语言的强化学习任务中，特别是在机器人操作领域。它通过学习视觉和语言之间的偏好模型，为机器人操作任务提供偏好反馈，从而帮助机器人更好地理解和执行人类的指令。

衍生相关工作

VLP 数据集衍生了许多相关工作，如基于视觉和语言的奖励模型、偏好学习等。这些工作进一步推动了强化学习领域的发展，并为机器人操作等实际应用提供了更多的可能性。

数据集最近研究