唇读数据集

github2019-12-10 更新2024-05-31 收录

下载链接：

https://github.com/jrterven/lip_reading_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练视觉语音识别系统，通过精确到毫秒级的音视频文本对齐，可用于任何语言的视频。数据集输出为包含说话文本、检测信心水平、文本起止时间、面部边界框坐标和视频链接的CSV文件。

This dataset is designed for training visual speech recognition systems, enabling precise millisecond-level alignment of audio, video, and text for videos in any language. The dataset outputs a CSV file containing spoken text, detection confidence levels, text start and end times, facial bounding box coordinates, and video links.

创建时间：

2018-10-06

原始信息汇总

数据集概述

数据集目的

本数据集旨在为视觉语音识别系统提供训练数据，通过精确到毫秒级的文本与视频对齐，支持多语言视频的处理。

数据集输出格式

数据集输出为一个CSV文件，包含以下字段：

字段名	描述
texto	视频中的语音文本
conf	检测的置信度，范围0到1
start	文本在视频中的起始时间（秒）
end	文本在视频中的结束时间（秒）
bounding_box	人脸框的像素坐标（x, y, 宽度, 高度）
link	YouTube视频链接（省略前缀）

数据集创建流程

1. 视频下载与分类

下载视频并分类存储，创建与类别对应的电子表格，记录视频链接和名称。

2. 音频提取

使用extract_wav_files.py脚本提取视频音频为.wav格式。

3. 文本提取

利用IBM的Speech to Text服务提取视频中的语音文本。

4. 子视频提取

使用extract_subvideos.py脚本提取包含特定文本的子视频片段。

数据集作者

Mejia Kenneth, Perales Pamela, Morales Raul, Córdova Diana, Romero Alejandro, Terven Juan.

数据集状态

正在审核中。

许可证

MIT许可证。

搜集汇总

数据集介绍

构建方式

唇读数据集的构建涉及了视频下载、音频提取、文本提取以及子视频生成等多个步骤。首先，将视频下载至指定目录，并根据类别创建对应的目录结构。随后，通过运行脚本提取音频，并利用IBM的语音识别服务将音频转换为文本。最后，根据文本的时间戳生成包含特定时间段的子视频，并记录在CSV文件中，该文件详细包含了文本、置信度、视频时间戳、面部坐标和视频链接等信息。

使用方法

使用该数据集时，首先需要准备相应的环境，包括IBM Cloud账户和相关资源的创建。之后，根据README中提供的指南，逐步执行脚本以处理视频数据。用户需要按照指定的格式组织数据，并运行提供的Python脚本进行数据处理。生成的CSV文件可用于进一步的数据分析和模型训练。

背景与挑战

背景概述

唇读数据集是一项旨在推动视觉语音识别技术发展的研究项目，其创建可追溯至近年，由Mejia Kenneth, Perales Pamela等研究人员共同开发。该数据集的核心研究问题是探索如何通过视觉信息，特别是观察说话者的唇部动作，来实现对语音的识别。其创新之处在于利用IBM的Audio-a-Text引擎实现音频与视频的精确对齐，从而能够对多种语言进行训练。该数据集的创建对唇读技术领域产生了重要影响，为相关研究提供了宝贵的资源。

当前挑战

在构建唇读数据集的过程中，研究人员面临了多个挑战。首先，确保音频与视频的精确对齐是一个技术难题，需要高精度的同步技术。其次，构建一个能够涵盖多种语言和情境的大型数据集，需要处理大量的视频和音频数据，这在数据收集和处理上都是一大挑战。此外，数据集的构建还需克服版权问题，确保所有视频的使用都符合法律法规。在研究领域，唇读数据集面临的挑战包括提高识别准确率、扩展数据集的多样性以及优化算法以适应不同的应用场景。

常用场景

经典使用场景

唇读数据集被广泛应用于构建基于视觉信息的语音识别系统。其核心使用场景在于，通过精确到毫秒级的音频与视频文本对齐，实现对视频中的口型与语音的同步分析，进而训练出能够根据唇部动作识别语言的模型。

解决学术问题

该数据集解决了学术研究中，如何将视觉信息与语音识别相结合的难题，为跨模态信息处理提供了重要资源。它使得研究人员可以在不同的语言环境中，通过视觉信号来理解和转写口语，对于推动语音识别技术的发展具有重要的学术价值。

实际应用

在实际应用中，唇读数据集可用于开发助听设备、语音识别软件以及为听障人士提供辅助交流工具。此外，在安全验证、人机交互等领域，该数据集同样具有重要的应用潜力。

数据集最近研究