SilentSpeak/EGCLLC

Name: SilentSpeak/EGCLLC
Creator: SilentSpeak
Published: 2023-12-11 06:48:54
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SilentSpeak/EGCLLC

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 language: - en size_categories: - 10K<n<100K --- # Enhanced GRID Corpus with Lip Landmark Coordinates ## Introduction This enhanced version of the GRID audiovisual sentence corpus, originally available at [Zenodo](https://zenodo.org/records/3625687), incorporates significant new features for auditory-visual speech recognition research. Building upon the preprocessed data from [LipNet-PyTorch](https://github.com/VIPL-Audio-Visual-Speech-Understanding/LipNet-PyTorch), we have added lip landmark coordinates to the dataset, providing detailed positional information of key points around the lips. This addition greatly enhances its utility in visual speech recognition and related fields. Furthermore, to facilitate ease of access and integration into existing machine learning workflows, we have published this enriched dataset on the Hugging Face platform, making it readily available to the research community. ## Dataset Structure This dataset is split into 3 directories: - `lip_images`: contains the images of the lips - `speaker_id`: contains the videos of a particular speaker - `video_id`: contains the video frames of a particular video - `frame_no.jpg`: jpg image of the lips of a particular frame - `lip_coordinates`: contains the landmark coordinates of the lips - `speaker_id`: contains the lip landmark of a particular speaker - `video_id.json`: a json file containing the lip landmark coordinates of a particular video, where the keys are the frame numbers and the values are the x, y lip landmark coordinates - `GRID_alignments`: contains the alignments of all the videos in the dataset - `speaker_id`: contains the alignments of a particular speaker - `video_id.align`: contains the alignments of a particular video, where each line is a word and the start and end time of the word in the video ## Details The lip landmark coordinates are extracted using the original videos in the GRID corpus and using the dlib library, using the [shape_predictor_68_face_landmarks_GTX.dat](https://github.com/davisking/dlib-models) pretrained model. The lip landmark coordinates are then saved in a json file, where the keys are the frame numbers and the values are the x, y lip landmark coordinates. The lip landmark coordinates are saved in the same order as the frames in the video. ## Usage The dataset can be downloaded by cloning this repository. ### Cloning the repository ```bash git clone https://huggingface.co/datasets/SilentSpeak/EGCLLC ``` ### Loading the dataset After cloning the repository, you can load the dataset by unpacking the tar file and using dataset_tar.py script. Alternatively, a probably faster method is that, you can un-tar the tar files using the following command: ```bash tar -xvf lip_images.tar tar -xvf lip_coordinates.tar tar -xvf GRID_alignments.tar ``` ## Acknowledgements Alvarez Casado, C., Bordallo Lopez, M. Real-time face alignment: evaluation methods, training strategies and implementation optimization. Springer Journal of Real-time image processing, 2021 Assael, Y., Shillingford, B., Whiteson, S., & Freitas, N. (2017). LipNet: End-to-End Sentence-level Lipreading. GPU Technology Conference. Cooke, M., Barker, J., Cunningham, S., & Shao, X. (2006). The Grid Audio-Visual Speech Corpus (1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.3625687

许可证：CC-BY-4.0 语言： - 英语样本量范围： - 10000 < 样本量 < 100000 # 带唇部关键点坐标的增强型GRID语料库（Enhanced GRID Corpus with Lip Landmark Coordinates） ## 简介本数据集为GRID视听语句语料库（GRID audiovisual sentence corpus）的增强版本，原始版本可于[Zenodo](https://zenodo.org/records/3625687)获取，新增了多项适用于视听语音识别（auditory-visual speech recognition）研究的关键特性。本数据集基于[LipNet-PyTorch](https://github.com/VIPL-Audio-Visual-Speech-Understanding/LipNet-PyTorch)提供的预处理数据构建，新增了唇部关键点坐标，可提供唇部周围关键节点的精确位置信息，大幅提升了该数据集在视觉语音识别及相关领域的应用价值。此外，为便于研究人员获取并将其集成至现有机器学习工作流中，我们将该增强数据集发布至Hugging Face平台（Hugging Face），使科研社区可便捷获取该资源。 ## 数据集结构本数据集分为3个目录： - `lip_images`：存储唇部图像 - `speaker_id`：存储特定说话者的视频数据 - `video_id`：存储特定视频的帧图像 - `frame_no.jpg`：特定帧的唇部JPG图像 - `lip_coordinates`：存储唇部关键点坐标 - `speaker_id`：存储特定说话者的唇部关键点数据 - `video_id.json`：存储特定视频的唇部关键点坐标的JSON文件，其中键为帧编号，值为唇部关键点的x、y坐标 - `GRID_alignments`：存储数据集中所有视频的对齐标注 - `speaker_id`：存储特定说话者的视频对齐标注 - `video_id.align`：存储特定视频的对齐标注，每行对应一个单词及其在视频中的起始与结束时间 ## 细节说明唇部关键点坐标通过GRID语料库的原始视频提取，使用dlib库（dlib library）及[shape_predictor_68_face_landmarks_GTX.dat](https://github.com/davisking/dlib-models)预训练模型完成。提取得到的唇部关键点坐标将保存至JSON文件，其中键为帧编号，值为唇部关键点的x、y坐标，且坐标保存顺序与视频中的帧顺序保持一致。 ## 使用方法本数据集可通过克隆本仓库进行下载。 ### 克隆仓库 bash git clone https://huggingface.co/datasets/SilentSpeak/EGCLLC ### 加载数据集克隆仓库后，可通过解压tar文件并使用dataset_tar.py脚本加载本数据集。或者，可通过以下命令解压tar文件，该方式通常速度更快： bash tar -xvf lip_images.tar tar -xvf lip_coordinates.tar tar -xvf GRID_alignments.tar ## 致谢 Alvarez Casado, C., Bordallo Lopez, M. 实时面部对齐：评估方法、训练策略与实现优化 Springer《实时图像处理期刊》（Journal of Real-Time Image Processing）, 2021 Assael, Y., Shillingford, B., Whiteson, S., & Freitas, N. (2017). LipNet：端到端语句级唇读. GPU技术大会（GPU Technology Conference） Cooke, M., Barker, J., Cunningham, S., & Shao, X. (2006). GRID视听语音语料库（1.0）[数据集]. Zenodo. https://doi.org/10.5281/zenodo.3625687

提供机构：

SilentSpeak

原始信息汇总

Enhanced GRID Corpus with Lip Landmark Coordinates

简介

这个增强版的GRID视听句子语料库，最初可在Zenodo获取，为视听语音识别研究引入了重要的新特性。基于LipNet-PyTorch的预处理数据，我们增加了唇部关键点坐标，提供了唇部周围关键点的详细位置信息。这一添加极大地增强了其在视觉语音识别及相关领域的实用性。此外，为了便于访问和集成到现有的机器学习工作流程中，我们在Hugging Face平台上发布了这一丰富的数据集，使其易于被研究社区获取。

数据集结构

该数据集分为3个目录：

lip_images: 包含唇部图像
- speaker_id: 包含特定说话者的视频
  - video_id: 包含特定视频的帧
    - frame_no.jpg: 特定帧的唇部jpg图像
lip_coordinates: 包含唇部关键点坐标
- speaker_id: 包含特定说话者的唇部关键点
  - video_id.json: 包含特定视频的唇部关键点坐标的json文件，键为帧号，值为x, y唇部关键点坐标
GRID_alignments: 包含数据集中所有视频的对齐信息
- speaker_id: 包含特定说话者的对齐信息
  - video_id.align: 包含特定视频的对齐信息，每行是一个单词及其在视频中的开始和结束时间

详细信息

唇部关键点坐标是通过使用GRID语料库中的原始视频和dlib库提取的，使用shape_predictor_68_face_landmarks_GTX.dat预训练模型。唇部关键点坐标随后保存在一个json文件中，键为帧号，值为x, y唇部关键点坐标。唇部关键点坐标按视频中帧的顺序保存。

使用方法

数据集可以通过克隆此仓库进行下载。

克隆仓库

bash git clone https://huggingface.co/datasets/SilentSpeak/EGCLLC

加载数据集

克隆仓库后，可以通过解压tar文件并使用dataset_tar.py脚本加载数据集。

或者，可以使用以下命令解压tar文件：

bash tar -xvf lip_images.tar tar -xvf lip_coordinates.tar tar -xvf GRID_alignments.tar

搜集汇总

数据集介绍

构建方式

在视听语音识别研究领域，SilentSpeak/EGCLLC数据集作为GRID视听语句语料库的增强版本，其构建过程体现了对原始数据的深度加工与扩展。该数据集基于LipNet-PyTorch项目提供的预处理数据，通过dlib库及其预训练模型shape_predictor_68_face_landmarks_GTX.dat，从GRID语料库的原始视频中提取了唇部关键点的坐标信息。这些坐标以JSON格式保存，键为帧编号，值为对应的x、y坐标，确保了与视频帧序列的一致性。同时，数据集保留了原有的唇部图像和语音对齐文件，形成了包含图像、坐标和对齐文本的三维结构，为多模态研究提供了坚实基础。

特点

该数据集的核心特点在于其丰富的多模态标注与精细的结构化组织。它不仅提供了高质量的唇部区域图像，还额外引入了唇部地标坐标，为视觉语音识别任务提供了精确的空间位置信息。数据按说话人、视频和帧进行分层存储，图像以JPG格式保存，坐标以JSON文件记录，对齐信息则以.align文件呈现，这种清晰的分层结构便于研究者按需访问特定数据子集。此外，数据集规模适中，包含超过一万个样本，覆盖多种说话人和语句，确保了数据的多样性和代表性，能够有效支持端到端的句子级唇读模型训练与评估。

使用方法

为便于研究社区使用，该数据集已托管于Hugging Face平台，用户可通过克隆仓库直接获取。下载后，数据集以压缩包形式提供，包含lip_images、lip_coordinates和GRID_alignments三个目录，分别存储唇部图像、坐标文件和对齐信息。用户可使用tar命令解压这些文件，或利用提供的Python脚本进行加载。在应用中，研究者可结合图像帧与对应的坐标数据，构建视听融合的特征表示，同时利用对齐文件进行时序建模或评估。这种灵活的数据组织方式支持多种机器学习工作流，适用于唇读、语音识别及多模态学习等前沿研究方向。

背景与挑战

背景概述

在视听语音识别领域，高质量的数据集是推动技术进步的关键基石。EGCLLC数据集作为GRID视听语句语料库的增强版本，由SilentSpeak团队于近年构建，其核心研究问题聚焦于提升视觉语音识别的精度与鲁棒性。该数据集在原始GRID语料库的基础上，通过引入唇部关键点坐标数据，为研究者提供了更丰富的视觉特征信息，从而促进了端到端唇读模型如LipNet的进一步发展。这一创新不仅深化了对唇部运动与语音关联的理解，也为多模态人机交互系统奠定了坚实的数据基础，对计算机视觉与语音处理交叉领域产生了深远影响。

当前挑战

EGCLLC数据集致力于解决视觉语音识别中唇部运动精准建模的挑战，尤其是在复杂光照、头部姿态变化等现实场景下，如何从视觉信号中稳定提取语义信息仍是一大难题。在构建过程中，团队面临数据标注一致性与准确性的考验，例如使用dlib库提取唇部关键点坐标时，需确保跨视频帧的坐标对齐与噪声抑制；同时，整合多模态数据（如图像、坐标与文本对齐）时，需维持数据结构的一致性与可访问性，这对数据预处理与存储方案提出了较高要求。

常用场景

经典使用场景

在视听语音识别领域，EGCLLC数据集为研究者提供了唇部图像与关键点坐标的精准对齐数据，成为开发端到端唇读模型的基石。该数据集通过整合GRID语料库的原始视频与dlib库提取的唇部标志点坐标，使得模型能够同时利用视觉纹理与几何结构信息，显著提升了在受限词汇环境下句子级唇读任务的性能评估与算法比较的可靠性。

实际应用

在实际应用中，EGCLLC数据集支撑的技术可广泛应用于辅助通信、安防监控与智能人机交互等领域。例如，在嘈杂环境或听力受损场景下，基于该数据集训练的唇读模型能够将无声的唇部动作转化为可理解的文本或语音，增强通信的可及性。同时，其在视频内容分析与身份验证系统中也展现出潜在价值，提升了自动化系统的感知能力。

衍生相关工作

围绕EGCLLC数据集及其前身GRID语料库，已衍生出多项经典研究工作。例如，LipNet首次实现了端到端的句子级唇读，为后续研究设立了基准。此外，众多改进工作聚焦于利用唇部标志点坐标增强视觉特征表示、设计更高效的多模态融合架构，以及探索自监督学习在唇读任务中的应用，持续推动着该领域的技术演进与理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集