five

Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含250人同时使用多设备录制的语音和匹配的唇语视频,通过脉冲信号精确对齐,具有高准确性。数据集可用于语音和图像领域的多模态学习算法研究。数据格式为视频(mp4格式,1280*720)和音频(wav格式,16HZ,16bit mono)。录制环境为安静的阳光房,模拟白天户外驾驶场景,信噪比为25~20dB。录制场景根据阳光强度分为大场景和子场景。录制内容包括短信号和口语句子。录制人员为250名中国人,性别平衡。录制设备包括摄像机、高清麦克风和音频板。录制角度包括正面、单侧面、仰视、俯视、侧面俯视和侧面仰视共6种不同角度,同时录制近端和远端音频。语言为普通话。应用场景为唇语识别。句子准确率不低于95%。

该数据集包含250人同时使用多设备录制的语音和匹配的唇语视频,通过脉冲信号精确对齐,具有高准确性。数据集可用于语音和图像领域的多模态学习算法研究。数据格式为视频(mp4格式,1280*720)和音频(wav格式,16HZ,16bit mono)。录制环境为安静的阳光房,模拟白天户外驾驶场景,信噪比为25~20dB。录制场景根据阳光强度分为大场景和子场景。录制内容包括短信号和口语句子。录制人员为250名中国人,性别平衡。录制设备包括摄像机、高清麦克风和音频板。录制角度包括正面、单侧面、仰视、俯视、侧面俯视和侧面仰视共6种不同角度,同时录制近端和远端音频。语言为普通话。应用场景为唇语识别。句子准确率不低于95%。
提供机构:
Nexdata
原始信息汇总

数据集概述

描述

  • 包含250人的语音与匹配唇语视频,通过多设备同步拍摄,利用脉冲信号精确对齐,具有高准确性。
  • 适用于语音和图像领域的多模态学习算法研究。

格式

  • 视频:mp4格式,分辨率1,280*720。
  • 音频:wav格式,采样率16HZ,16bit单声道。

录制环境

  • 在安静的阳光充足的房间内模拟白天户外驾驶场景。
  • 信号噪声比:25~20dB。

录制场景

  • 根据阳光强度的不同,分为大场景和子场景。

录制内容

  • 包括短信号和口语句子。

录制人员

  • 250名中国人,性别平衡。

录制设备

  • 使用相机、高清麦克风和音频板。

录制角度

  • 记录正面、单侧脸、抬头、低头、侧脸向下和侧脸向上共6种不同角度的视频,同时记录近端和远端音频。

语言

  • 普通话。

应用场景

  • 唇语识别。

准确性

  • 句子准确率不低于95%。

许可信息

  • 商业许可。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作