vlm-voice-audio

Hugging Face2026-03-23 更新2026-03-24 收录

下载链接：

https://huggingface.co/datasets/cagataydev/vlm-voice-audio

下载链接

链接失效反馈

官方服务：

资源简介：

VLM Robotics Voice Commands (Audio) 数据集包含 8,000 条人类语音命令的音频记录，用于控制机器人，涵盖拾取与放置、导航、操作、观察、多步骤任务、空间命令、安全、家务和对话反馈等多种场景。该数据集旨在训练全模态视觉语言模型（VLM），使其能够理解自然语音命令。音频数据以 WAV 格式（16 位，44.1 kHz 采样率）存储，平均时长为 2.5 秒，总时长为 5.5 小时。数据集按命令类别、语音类型和难度级别进行了详细分布统计，并提供了音频、文本转录、语音 ID、命令类别、难度和持续时间等字段。适用于自动语音识别、文本到语音和机器人控制等任务。

创建时间：

2026-03-23

5,000+

优质数据集

54 个

任务类型

进入经典数据集