VoxLRS-SA
收藏VoxLRS-SA 数据集概述
数据集介绍
VoxLRS-SA 数据集是为了验证在真实世界场景中提出的说话人自适应唇读方法而引入的新数据集,源自 VoxCeleb2 和 LRS3 数据集。该数据集包含了 VoxCeleb2 和 LRS3 视听数据集的说话人 ID 信息。
数据集准备
为了训练和推理模型,需要 VoxCeleb2 和 LRS3 数据集。
- 从官方网站下载 VoxCeleb2 数据集:VoxCeleb2 链接
- 从官方网站下载 LRS3 数据集:LRS3 链接
数据集预处理
下载数据集后,应检测所有视频的面部标志并使用这些面部标志裁剪口腔区域。建议按照 Visual Speech Recognition for Multiple Languages 进行预处理。
数据集布局
Path to Datasets(e.g., /home/Dataset/...) ├── lrs3 │ ├── lrs3_video_seg24s # 预处理后的视频数据 ├── vox2 # VoxCeleb2 │ └── en │ └── video # 预处理后的视频数据
数据结构
说话人 ID 信息包含在 *.tsv 文件中。 bash
示例:baseline/test.tsv 文件中的第二行
voxlrs-00001 /Path_to_Datasets/vox2/en/video/dev/mp4/id05998/nfWYhJyGsPU/00370_00.mp4 /Path_to_Datasets/vox2/en/video/dev/mp4/id05998/nfWYhJyGsPU/00370_00.mp4 241 241 (说话人 ID) (视频路径) (视频路径) (视频帧数) (视频帧数)
如果设计个性化视听语音识别,可以将第三项(视频路径)和第五项(视频帧数)替换为音频信息。
路径修改
所有清单文件均在此仓库中提供。需要使用以下命令将清单文件中的视频路径替换为预处理后的视频路径: bash python path_modification.py --dataset_pth /path/to/datasets
VoxLRS-SA 数据集划分
为了构建未见说话人场景(训练和测试说话人不重叠),选择了 20 个说话人用于测试和验证(适应)。
贡献
为了更准确的说话人信息,欢迎参与改进标签信息。




