Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data

Name: Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data
Creator: Nexdata
Published: 2024-04-16 05:38:22
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/155_Hours_Lip_Sync_Multimodal_Video_Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含250人同时使用多设备录制的语音和匹配的唇语视频，通过脉冲信号精确对齐，具有高准确性。数据集可用于语音和图像领域的多模态学习算法研究。数据格式为视频（mp4格式，1280*720）和音频（wav格式，16HZ，16bit mono）。录制环境为安静的阳光房，模拟白天户外驾驶场景，信噪比为25~20dB。录制场景根据阳光强度分为大场景和子场景。录制内容包括短信号和口语句子。录制人员为250名中国人，性别平衡。录制设备包括摄像机、高清麦克风和音频板。录制角度包括正面、单侧面、仰视、俯视、侧面俯视和侧面仰视共6种不同角度，同时录制近端和远端音频。语言为普通话。应用场景为唇语识别。句子准确率不低于95%。

提供机构：

Nexdata

原始信息汇总

数据集概述

描述

包含250人的语音与匹配唇语视频，通过多设备同步拍摄，利用脉冲信号精确对齐，具有高准确性。
适用于语音和图像领域的多模态学习算法研究。

格式

视频：mp4格式，分辨率1,280*720。
音频：wav格式，采样率16HZ，16bit单声道。

录制环境

在安静的阳光充足的房间内模拟白天户外驾驶场景。
信号噪声比：25~20dB。

录制场景

根据阳光强度的不同，分为大场景和子场景。

录制内容

包括短信号和口语句子。

录制人员

250名中国人，性别平衡。

录制设备

使用相机、高清麦克风和音频板。

录制角度

记录正面、单侧脸、抬头、低头、侧脸向下和侧脸向上共6种不同角度的视频，同时记录近端和远端音频。

语言

普通话。

应用场景

唇语识别。

准确性

句子准确率不低于95%。

许可信息

商业许可。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集