Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含250人同时使用多设备录制的语音和匹配的唇语视频,通过脉冲信号精确对齐,具有高准确性。数据集可用于语音和图像领域的多模态学习算法研究。数据格式为视频(mp4格式,1280*720)和音频(wav格式,16HZ,16bit mono)。录制环境为安静的阳光房,模拟白天户外驾驶场景,信噪比为25~20dB。录制场景根据阳光强度分为大场景和子场景。录制内容包括短信号和口语句子。录制人员为250名中国人,性别平衡。录制设备包括摄像机、高清麦克风和音频板。录制角度包括正面、单侧面、仰视、俯视、侧面俯视和侧面仰视共6种不同角度,同时录制近端和远端音频。语言为普通话。应用场景为唇语识别。句子准确率不低于95%。
该数据集包含250人同时使用多设备录制的语音和匹配的唇语视频,通过脉冲信号精确对齐,具有高准确性。数据集可用于语音和图像领域的多模态学习算法研究。数据格式为视频(mp4格式,1280*720)和音频(wav格式,16HZ,16bit mono)。录制环境为安静的阳光房,模拟白天户外驾驶场景,信噪比为25~20dB。录制场景根据阳光强度分为大场景和子场景。录制内容包括短信号和口语句子。录制人员为250名中国人,性别平衡。录制设备包括摄像机、高清麦克风和音频板。录制角度包括正面、单侧面、仰视、俯视、侧面俯视和侧面仰视共6种不同角度,同时录制近端和远端音频。语言为普通话。应用场景为唇语识别。句子准确率不低于95%。
提供机构:
Nexdata
原始信息汇总
数据集概述
描述
- 包含250人的语音与匹配唇语视频,通过多设备同步拍摄,利用脉冲信号精确对齐,具有高准确性。
- 适用于语音和图像领域的多模态学习算法研究。
格式
- 视频:mp4格式,分辨率1,280*720。
- 音频:wav格式,采样率16HZ,16bit单声道。
录制环境
- 在安静的阳光充足的房间内模拟白天户外驾驶场景。
- 信号噪声比:25~20dB。
录制场景
- 根据阳光强度的不同,分为大场景和子场景。
录制内容
- 包括短信号和口语句子。
录制人员
- 250名中国人,性别平衡。
录制设备
- 使用相机、高清麦克风和音频板。
录制角度
- 记录正面、单侧脸、抬头、低头、侧脸向下和侧脸向上共6种不同角度的视频,同时记录近端和远端音频。
语言
- 普通话。
应用场景
- 唇语识别。
准确性
- 句子准确率不低于95%。
许可信息
- 商业许可。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



