VoxLRS-SA

github2024-09-02 更新2024-09-03 收录

下载链接：

https://github.com/JeongHun0716/VoxLRS-SA

下载链接

链接失效反馈

官方服务：

资源简介：

VoxLRS-SA是一个新数据集，源自VoxCeleb2和LRS3数据集，用于验证提出的说话者自适应唇读方法在真实世界场景中的有效性。该数据集包含了说话者ID信息，并提供了详细的预处理步骤和数据结构描述。

VoxLRS-SA is a novel dataset derived from the VoxCeleb2 and LRS3 datasets, which is designed to validate the effectiveness of the proposed speaker-adaptive lipreading method in real-world scenarios. This dataset includes speaker ID information and provides detailed preprocessing procedures and data structure descriptions.

创建时间：

2024-09-02

原始信息汇总

VoxLRS-SA 数据集概述

数据集介绍

VoxLRS-SA 数据集是为了验证在真实世界场景中提出的说话人自适应唇读方法而引入的新数据集，源自 VoxCeleb2 和 LRS3 数据集。该数据集包含了 VoxCeleb2 和 LRS3 视听数据集的说话人 ID 信息。

数据集准备

为了训练和推理模型，需要 VoxCeleb2 和 LRS3 数据集。

从官方网站下载 VoxCeleb2 数据集：VoxCeleb2 链接
从官方网站下载 LRS3 数据集：LRS3 链接

数据集预处理

下载数据集后，应检测所有视频的面部标志并使用这些面部标志裁剪口腔区域。建议按照 Visual Speech Recognition for Multiple Languages 进行预处理。

数据集布局

Path to Datasets(e.g., /home/Dataset/...) ├── lrs3 │ ├── lrs3_video_seg24s # 预处理后的视频数据 ├── vox2 # VoxCeleb2 │ └── en │ └── video # 预处理后的视频数据

数据结构

说话人 ID 信息包含在 *.tsv 文件中。 bash

示例：baseline/test.tsv 文件中的第二行

voxlrs-00001 /Path_to_Datasets/vox2/en/video/dev/mp4/id05998/nfWYhJyGsPU/00370_00.mp4 /Path_to_Datasets/vox2/en/video/dev/mp4/id05998/nfWYhJyGsPU/00370_00.mp4 241 241 (说话人 ID) (视频路径) (视频路径) (视频帧数) (视频帧数)

如果设计个性化视听语音识别，可以将第三项（视频路径）和第五项（视频帧数）替换为音频信息。

路径修改

所有清单文件均在此仓库中提供。需要使用以下命令将清单文件中的视频路径替换为预处理后的视频路径： bash python path_modification.py --dataset_pth /path/to/datasets

VoxLRS-SA 数据集划分

为了构建未见说话人场景（训练和测试说话人不重叠），选择了 20 个说话人用于测试和验证（适应）。

贡献

为了更准确的说话人信息，欢迎参与改进标签信息。

搜集汇总

数据集介绍

构建方式

为了在真实世界场景中验证说话者自适应唇语识别方法的有效性，我们构建了名为VoxLRS-SA的新数据集。该数据集源自VoxCeleb2和LRS3数据集，通过整合这两个数据集的音视频信息，提取并标注了说话者的ID信息。在数据预处理阶段，我们检测了所有视频的面部标志，并裁剪出嘴部区域，以确保数据的高质量。此外，我们还提供了详细的预处理指南，推荐使用[Visual Speech Recognition for Multiple Languages](https://github.com/mpc001/Visual_Speech_Recognition_for_Multiple_Languages)项目中的方法进行视频预处理。

特点

VoxLRS-SA数据集的显著特点在于其高度自适应性和真实性。通过整合VoxCeleb2和LRS3数据集，该数据集不仅包含了丰富的音视频数据，还特别标注了说话者的ID信息，为个性化唇语识别提供了坚实的基础。此外，数据集的构建过程中，我们特别关注了说话者ID的准确性，确保了数据的高质量。为了模拟真实世界的应用场景，我们还设计了未见说话者的测试集，确保训练和测试的说话者不重叠，从而提高了模型的泛化能力。

使用方法

使用VoxLRS-SA数据集时，首先需要下载VoxCeleb2和LRS3数据集，并按照提供的指南进行视频预处理。随后，通过运行提供的`path_modification.py`脚本，将预处理后的视频路径更新到数据集的清单文件中。为了进一步个性化音频-视觉语音识别，用户可以替换清单文件中的视频路径和帧数信息为音频信息。此外，数据集还提供了详细的测试和验证集，用户可以根据需要选择合适的说话者进行训练和测试，以验证模型的性能。

背景与挑战

背景概述

在语音识别领域，个性化唇读技术因其对个体独特唇部动作的适应性而备受关注。VoxLRS-SA数据集应运而生，旨在验证真实世界场景中的说话者自适应唇读方法。该数据集由VoxCeleb2和LRS3数据集衍生而来，主要研究人员包括Jeong Hun Yeo、Chae Won Kim等，其核心研究问题是如何通过视觉和语言技术适应个体独特的唇部动作。该数据集的引入不仅丰富了个性化唇读的研究资源，也为相关领域的技术进步提供了新的视角。

当前挑战

VoxLRS-SA数据集在构建过程中面临多项挑战。首先，数据集的预处理要求高精度的面部标志检测和口部区域裁剪，这需要复杂的视频处理技术。其次，确保训练和测试说话者不重叠的场景构建，增加了数据集的复杂性和使用难度。此外，个性化音频-视觉语音识别的设计需要对数据结构进行精细调整，这进一步提升了数据集的使用门槛。这些挑战不仅考验了数据集构建的技术能力，也对其在实际应用中的有效性提出了高要求。

常用场景

经典使用场景

在语音识别领域，VoxLRS-SA数据集的经典应用场景主要集中在个性化唇语识别模型的验证与优化。该数据集通过整合VoxCeleb2和LRS3数据集的音频与视频信息，为研究者提供了一个真实世界中验证唇语识别方法的平台。具体而言，研究者可以利用该数据集进行模型训练，通过检测和裁剪视频中的口部区域，实现对个性化唇语识别模型的精细调整和性能评估。

衍生相关工作

基于VoxLRS-SA数据集，研究者们开展了一系列相关工作，进一步推动了个性化唇语识别技术的发展。例如，有研究通过引入深度学习模型，提升了唇语识别的准确率；还有研究探索了多模态融合技术，将视觉和语言信息有效结合，增强了模型的鲁棒性。这些衍生工作不仅丰富了数据集的应用场景，也为后续研究提供了宝贵的参考和借鉴。

数据集最近研究