five

vlm-voice-audio

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/cagataydev/vlm-voice-audio
下载链接
链接失效反馈
官方服务:
资源简介:
VLM Robotics Voice Commands (Audio) 数据集包含 8,000 条人类语音命令的音频记录,用于控制机器人,涵盖拾取与放置、导航、操作、观察、多步骤任务、空间命令、安全、家务和对话反馈等多种场景。该数据集旨在训练全模态视觉语言模型(VLM),使其能够理解自然语音命令。音频数据以 WAV 格式(16 位,44.1 kHz 采样率)存储,平均时长为 2.5 秒,总时长为 5.5 小时。数据集按命令类别、语音类型和难度级别进行了详细分布统计,并提供了音频、文本转录、语音 ID、命令类别、难度和持续时间等字段。适用于自动语音识别、文本到语音和机器人控制等任务。
创建时间:
2026-03-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作