OTTER Dataset

github2025-03-06 更新2025-03-07 收录

下载链接：

https://github.com/Max-Fu/otter

下载链接

链接失效反馈

官方服务：

资源简介：

OTTER数据集托管在Hugging Face上，支持在Open X-Embodiment上进行预训练。此外，还有一个转换后的LeRobot版本的数据集，用于微调Pi0模型，该模型使用关节位置进行本体感觉，使用关节速度进行动作。

The OTTER dataset is hosted on Hugging Face and supports pre-training on Open X-Embodiment. Additionally, a converted LeRobot version of the dataset is available, which is designed for fine-tuning the Pi0 model. The Pi0 model uses joint positions for proprioception and joint velocities for its actions.

创建时间：

2025-03-05

原始信息汇总

OTTER: 视觉-语言-动作模型

数据集描述

作者：Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
机构：UC Berkeley 和 Meta
论文：Otter: A Vision-Language-Action Model with Text-Aware Feature Extraciton
项目页面：OTTER Project Page

数据集版本

初始发布日期：2025-03-05

数据集获取

数据集存储在 Hugging Face 上，支持在 Open X-Embodiment 上进行预训练。
LeRobot 版本的数据集及微调脚本：LeRobot Dataset、Pi0 Fine-tuning Scripts

数据集下载命令

bash pip install -U "huggingface_hub[cli]" mkdir -p dataset pushd dataset huggingface-cli download mlfu7/icrt_pour --repo-type dataset --local-dir . huggingface-cli download mlfu7/icrt_drawer --repo-type dataset --local-dir . huggingface-cli download mlfu7/icrt_poke --repo-type dataset --local-dir . huggingface-cli download mlfu7/icrt_pickplace_1 --repo-type dataset --local-dir . huggingface-cli download mlfu7/icrt_stack_mul_tfds --repo-type dataset --local-dir . huggingface-cli download mlfu7/icrt_pickplace --repo-type dataset --local-dir . popd

数据集使用许可

Apache 2.0 许可

引用信息

@article{huang2025otter, title={Otter: A Vision-Language-Action Model with Text-Aware Feature Extraciton}, author={Huang Huang and Fangchen Liu and Letian Fu and Tingfan Wu and Mustafa Mukadam and Jitendra Malik and Ken Goldberg and Pieter Abbeel}, journal={arXiv preprint arXiv:2503.03734}, year={2025} }

搜集汇总

数据集介绍

构建方式

OTTER数据集的构建基于视觉-语言-动作的融合模型，通过文本感知的视觉特征提取技术，实现了视觉信息与文本描述的深度整合。该数据集的构建涉及多个模块的协同工作，包括图像处理、自然语言处理以及动作规划等，旨在促进机器人与人类环境的交互能力。

特点

OTTER数据集的特点在于其创新的文本感知视觉特征提取，使得模型能够更好地理解图像中的对象与场景，并根据文本描述生成相应的动作。数据集涵盖了多种日常任务，如倒水、开抽屉、戳刺等，为研究提供了丰富的应用场景和多样化的数据样本。

使用方法

使用OTTER数据集首先需要通过Hugging Face平台下载相应的数据集文件，然后根据官方提供的代码库进行环境的配置和模型的训练。用户可以通过提供的接口对模型进行推理，实现基于视觉和文本输入的动作生成，同时还可以通过脚本在DROID环境中进行模型的部署和测试。

背景与挑战

背景概述

OTTER数据集，全称为A Vision-Language-Action Model with Text-Aware Visual Feature Extraction，是由加州大学伯克利分校和Meta公司的联合研究团队开发的一款融合视觉、语言及行动的模型。该模型的首个版本发布于2025年3月5日。研究团队由Huang Huang、Fangchen Liu、Letian Fu等研究人员组成，他们在该领域的研究为视觉语言模型的结合提供了新的视角和方法。OTTER数据集的核心研究问题是提高机器人执行复杂任务时的视觉理解能力，尤其是在理解与文本描述相关的视觉信息方面。该数据集的构建对机器人学、计算机视觉以及自然语言处理等领域产生了深远影响。

当前挑战

OTTER数据集在构建过程中遇到的挑战主要包括：一是如何有效地将视觉信息与文本描述相结合，以提升模型对任务的理解和执行能力；二是如何在大规模数据集上实现高效的预训练和微调，确保模型能够适应各种复杂的操作环境。此外，数据集在解决视觉语言行动领域的任务时，也面临着如何准确捕捉动作细节、如何处理动态变化场景等挑战。

常用场景

经典使用场景

OTTER数据集是机器人视觉语言行动领域的一项创新成果，其经典使用场景在于构建能够理解自然语言指令，并根据这些指令执行相应动作的机器人系统。该数据集通过结合视觉、语言和行动，使机器人能够对复杂环境中的任务进行理解和响应。

解决学术问题

该数据集解决了机器人领域中的一项关键学术问题，即如何使机器人更好地理解和执行人类的自然语言指令。通过OTTER数据集，研究者能够训练出在视觉和语言处理方面具有更高准确性的机器人模型，从而提高机器人在复杂环境中的自主操作能力。

衍生相关工作

OTTER数据集衍生出了多项相关工作，包括对数据集的扩展、模型的改进以及在不同应用场景中的适应性研究。这些相关工作进一步推动了机器人视觉语言行动领域的进展，为机器人的智能化和自主化提供了新的研究方向和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集