vlm-voice-audio
收藏Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/cagataydev/vlm-voice-audio
下载链接
链接失效反馈官方服务:
资源简介:
VLM Robotics Voice Commands (Audio) 数据集包含 8,000 条人类语音命令的音频记录,用于控制机器人,涵盖拾取与放置、导航、操作、观察、多步骤任务、空间命令、安全、家务和对话反馈等多种场景。该数据集旨在训练全模态视觉语言模型(VLM),使其能够理解自然语音命令。音频数据以 WAV 格式(16 位,44.1 kHz 采样率)存储,平均时长为 2.5 秒,总时长为 5.5 小时。数据集按命令类别、语音类型和难度级别进行了详细分布统计,并提供了音频、文本转录、语音 ID、命令类别、难度和持续时间等字段。适用于自动语音识别、文本到语音和机器人控制等任务。
创建时间:
2026-03-23



