LRS3-TED
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/LRS3-TED
下载链接
链接失效反馈官方服务:
资源简介:
LRS3-TED 是一个用于视觉和视听语音识别的多模态数据集。它包括来自 400 多个小时的 TED 和 TEDx 视频的人脸轨迹,以及相应的字幕和单词对齐边界。与可用于一般研究的其他公共数据集相比,新数据集的规模要大得多。
LRS3-TED is a multimodal dataset for visual and audio-visual speech recognition. It includes facial tracks from over 400 hours of TED and TEDx videos, along with corresponding subtitles and word-aligned boundaries. Compared with other public datasets available for general research, this new dataset has a significantly larger scale.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
LRS3-TED是一个大规模多模态数据集,专门用于视觉和视听语音识别研究,包含超过400小时的TED和TEDx视频,提供人脸轨迹、字幕和单词对齐边界。该数据集由牛津大学于2018年发布,规模远超其他公共数据集,适用于唇读、语音识别和计算机视觉预训练等任务。
以上内容由遇见数据集搜集并总结生成



