唇读数据集
收藏github2019-12-10 更新2024-05-31 收录
下载链接:
https://github.com/jrterven/lip_reading_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练视觉语音识别系统,通过精确到毫秒级的音视频文本对齐,可用于任何语言的视频。数据集输出为包含说话文本、检测信心水平、文本起止时间、面部边界框坐标和视频链接的CSV文件。
This dataset is designed for training visual speech recognition systems, enabling precise millisecond-level alignment of audio, video, and text for videos in any language. The dataset outputs a CSV file containing spoken text, detection confidence levels, text start and end times, facial bounding box coordinates, and video links.
创建时间:
2018-10-06
原始信息汇总
数据集概述
数据集目的
本数据集旨在为视觉语音识别系统提供训练数据,通过精确到毫秒级的文本与视频对齐,支持多语言视频的处理。
数据集输出格式
数据集输出为一个CSV文件,包含以下字段:
| 字段名 | 描述 |
|---|---|
| texto | 视频中的语音文本 |
| conf | 检测的置信度,范围0到1 |
| start | 文本在视频中的起始时间(秒) |
| end | 文本在视频中的结束时间(秒) |
| bounding_box | 人脸框的像素坐标(x, y, 宽度, 高度) |
| link | YouTube视频链接(省略前缀) |
数据集创建流程
1. 视频下载与分类
- 下载视频并分类存储,创建与类别对应的电子表格,记录视频链接和名称。
2. 音频提取
- 使用
extract_wav_files.py脚本提取视频音频为.wav格式。
3. 文本提取
- 利用IBM的Speech to Text服务提取视频中的语音文本。
4. 子视频提取
- 使用
extract_subvideos.py脚本提取包含特定文本的子视频片段。
数据集作者
- Mejia Kenneth, Perales Pamela, Morales Raul, Córdova Diana, Romero Alejandro, Terven Juan.
数据集状态
- 正在审核中。
许可证
- MIT许可证。
搜集汇总
数据集介绍

构建方式
唇读数据集的构建涉及了视频下载、音频提取、文本提取以及子视频生成等多个步骤。首先,将视频下载至指定目录,并根据类别创建对应的目录结构。随后,通过运行脚本提取音频,并利用IBM的语音识别服务将音频转换为文本。最后,根据文本的时间戳生成包含特定时间段的子视频,并记录在CSV文件中,该文件详细包含了文本、置信度、视频时间戳、面部坐标和视频链接等信息。
使用方法
使用该数据集时,首先需要准备相应的环境,包括IBM Cloud账户和相关资源的创建。之后,根据README中提供的指南,逐步执行脚本以处理视频数据。用户需要按照指定的格式组织数据,并运行提供的Python脚本进行数据处理。生成的CSV文件可用于进一步的数据分析和模型训练。
背景与挑战
背景概述
唇读数据集是一项旨在推动视觉语音识别技术发展的研究项目,其创建可追溯至近年,由Mejia Kenneth, Perales Pamela等研究人员共同开发。该数据集的核心研究问题是探索如何通过视觉信息,特别是观察说话者的唇部动作,来实现对语音的识别。其创新之处在于利用IBM的Audio-a-Text引擎实现音频与视频的精确对齐,从而能够对多种语言进行训练。该数据集的创建对唇读技术领域产生了重要影响,为相关研究提供了宝贵的资源。
当前挑战
在构建唇读数据集的过程中,研究人员面临了多个挑战。首先,确保音频与视频的精确对齐是一个技术难题,需要高精度的同步技术。其次,构建一个能够涵盖多种语言和情境的大型数据集,需要处理大量的视频和音频数据,这在数据收集和处理上都是一大挑战。此外,数据集的构建还需克服版权问题,确保所有视频的使用都符合法律法规。在研究领域,唇读数据集面临的挑战包括提高识别准确率、扩展数据集的多样性以及优化算法以适应不同的应用场景。
常用场景
经典使用场景
唇读数据集被广泛应用于构建基于视觉信息的语音识别系统。其核心使用场景在于,通过精确到毫秒级的音频与视频文本对齐,实现对视频中的口型与语音的同步分析,进而训练出能够根据唇部动作识别语言的模型。
解决学术问题
该数据集解决了学术研究中,如何将视觉信息与语音识别相结合的难题,为跨模态信息处理提供了重要资源。它使得研究人员可以在不同的语言环境中,通过视觉信号来理解和转写口语,对于推动语音识别技术的发展具有重要的学术价值。
实际应用
在实际应用中,唇读数据集可用于开发助听设备、语音识别软件以及为听障人士提供辅助交流工具。此外,在安全验证、人机交互等领域,该数据集同样具有重要的应用潜力。
数据集最近研究
最新研究方向
唇读数据集作为视觉信息辅助下的语音识别训练资源,其在语音识别领域的研究方向主要集中在音频与视频信息的同步对齐及转换。近期研究聚焦于运用IBM的语音识别技术,通过精确到毫秒级的文本与视频同步,探索不同语言环境下的唇读识别准确性和效率。该数据集使得研究人员能够深入分析视觉信息在语音识别中的作用,推进音频-视觉联合建模技术的发展,对于提升多模态交互系统的性能具有重要的理论和实际意义。
以上内容由遇见数据集搜集并总结生成



