FuSe

github2025-01-14 更新2025-01-15 收录

下载链接：

https://github.com/fuse-model/FuSe

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含26,866个在UC Berkeley的RAIL实验室的WidowX机器人上收集的轨迹数据，涵盖了视觉、触觉、声音和动作数据，并附有自然语言注释。

This dataset comprises 26,866 trajectory traces collected using the WidowX robot at the RAIL Lab of UC Berkeley, covering visual, tactile, audio, and action data, along with accompanying natural language annotations.

创建时间：

2024-12-20

原始信息汇总

数据集概述

数据集名称

FuSe

数据集描述

FuSe 数据集包含 26,866 条在 WidowX 机器人上收集的轨迹数据，这些数据是在美国加州大学伯克利分校的 RAIL 实验室中采集的。数据集涵盖了视觉、触觉、声音和动作数据，并且每个轨迹都附有自然语言注释。

数据集内容

数据类型：视觉、触觉、声音、动作数据
数据量：26,866 条轨迹
采集环境：多个不同环境
注释：自然语言注释

数据集下载

数据集可以通过 HuggingFace 数据集页面下载：FuSe 数据集

模型训练

数据集支持两种主要模型的训练：

Octo：基于扩散的 Transformer 模型
- 训练脚本：octo_digit/scripts/finetune_fuse.py
- 配置文件：scripts/configs/fuse_config.py
PaliVLA：基于 PaliGemma 的 3B VLA 模型
- 训练脚本：palivla_digit/palivla/train_fuse.py
- 配置文件：palivla_digit/palivla/configs/fuse_config.py

预训练模型推理

预训练模型可以从 HuggingFace 模型中心下载：FuSe 模型

Octo 推理脚本：octo_digit/eval/fuse_eval.py
PaliVLA 推理脚本：palivla_digit/eval_palivla.py

许可证

本项目采用 MIT 许可证，详细信息见 LICENSE
PaliVLA 采用 Apache 2.0 许可证，详细信息见 PaliVLA LICENSE

引用

bibtex @article{jones2025fuse, title={Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding}, author={Jones, Joshua and Mees, Oier and Sferrazza, Carmelo and Stachowicz, Kyle and Abbeel, Pieter and Levine, Sergey}, journal={arXiv preprint arXiv:2501.04693}, year={2025} }

搜集汇总

数据集介绍

构建方式

FuSe数据集的构建基于多模态传感器数据的融合，旨在通过语言基础将触觉、听觉等异质传感器数据整合到通用机器人策略中。数据集包含26,866条机器人轨迹，这些轨迹是在美国加州大学伯克利分校的RAIL实验室中，使用WidowX机器人采集的。每条轨迹均包含视觉、触觉、声音和动作数据，并附有自然语言注释，覆盖了多种环境场景。

使用方法

FuSe数据集的使用方法包括数据下载、模型训练和推理。用户可以通过HuggingFace平台下载数据集，并基于Octo和PaliVLA模型进行训练。Octo模型的训练通过`finetune_fuse.py`脚本完成，而PaliVLA模型的训练则通过`train_fuse.py`脚本实现。推理阶段，用户可以使用预训练模型进行机器人策略的评估和测试。具体操作包括安装相关依赖、下载预训练模型，并运行相应的评估脚本。数据集和模型的详细使用说明可在HuggingFace和GitHub页面找到。

背景与挑战

背景概述

FuSe数据集由加州大学伯克利分校的RAIL实验室于2025年发布，主要研究人员包括Joshua Jones、Oier Mees、Carmelo Sferrazza等。该数据集旨在通过语言基础将异质传感器数据（如触觉和音频）融合到通用机器人策略中，以提升机器人在复杂环境中的感知与决策能力。数据集包含26,866条机器人轨迹，涵盖了视觉、触觉、声音和动作数据，并附有自然语言注释。这一研究为机器人领域的多模态感知与语言理解提供了重要的数据支持，推动了通用机器人策略的发展。

当前挑战

FuSe数据集在构建过程中面临多重挑战。首先，异质传感器数据的融合需要解决数据格式、时间同步和噪声处理等问题，以确保多模态数据的一致性和有效性。其次，自然语言注释的生成与对齐要求高精度的语义理解，这对数据标注的准确性和完整性提出了较高要求。此外，数据集的规模与多样性也带来了计算资源与存储的挑战，尤其是在训练大规模模型时。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练与优化提出了更高的技术要求。

常用场景

经典使用场景

FuSe数据集在机器人学习领域中被广泛用于多模态感知与语言接地的研究。通过融合视觉、触觉和声音等异构传感器数据，该数据集为机器人策略的泛化能力提供了丰富的训练素材。研究人员可以利用这些数据，训练机器人理解复杂环境中的多模态信息，并通过自然语言指令执行任务。

解决学术问题

FuSe数据集解决了机器人学习中的多模态感知与语言接地的关键问题。传统机器人策略往往依赖于单一传感器数据，难以应对复杂环境中的多样化任务。FuSe通过提供异构传感器数据，帮助研究人员开发出能够同时处理视觉、触觉和声音信息的机器人模型，从而提升了机器人在真实环境中的适应性和任务执行能力。

实际应用

在实际应用中，FuSe数据集为智能家居、工业自动化以及服务机器人等领域提供了重要支持。例如，在智能家居中，机器人可以通过视觉和触觉感知家具的位置和状态，结合声音指令完成物品搬运或清洁任务。在工业自动化中，机器人可以利用多模态数据精确执行装配或检测任务，提升生产效率和安全性。

数据集最近研究