LRS-VoxMM

Name: LRS-VoxMM
Creator: 韩国科学技术院
Published: 2026-04-30 21:50:10
License: 暂无描述

arXiv2026-04-30 更新2026-05-02 收录

下载链接：

https://mm.kaist.ac.kr/projects/voxmm

下载链接

链接失效反馈

官方服务：

资源简介：

LRS-VoxMM是由韩国科学技术院构建的野外环境音视频语音识别基准数据集，基于多领域YouTube对话语料库VoxMM精选而成。该数据集包含29,146条样本，总时长25.3小时，涵盖12个不同领域的真实对话场景，具有人类标注的精确文本转录和丰富的元数据。通过严格的样本筛选流程，保留1-25秒的单人说话片段，并采用LRS系列标准格式进行音频重采样（16kHz）和视频处理（25fps/224×224分辨率）。其特色在于包含原始测试集和四种合成失真变体（噪声/混响/带宽限制组合），为研究复杂声学条件下的多模态语音识别提供了标准化评估平台，特别适用于验证视觉信息在音频退化场景中的补偿作用。

LRS-VoxMM is a real-world audio-visual speech recognition benchmark dataset developed by the Korea Advanced Institute of Science and Technology (KAIST), curated from the multi-domain YouTube dialogue corpus VoxMM. Comprising 29,146 samples with a total duration of 25.3 hours, this dataset covers real-world dialogue scenarios across 12 distinct domains, and is equipped with human-annotated accurate text transcriptions and rich metadata. Through a rigorous sample filtering pipeline, it retains single-speaker speech segments ranging from 1 to 25 seconds in length, and applies the standard LRS-series formats for audio resampling (16 kHz) and video processing (25 fps, 224×224 resolution). A key characteristic of LRS-VoxMM is that it includes the original test set and four synthetic distortion variants (combinations of noise, reverb, and bandwidth restriction), providing a standardized evaluation platform for researching multimodal speech recognition under complex acoustic conditions, and being particularly suitable for validating the compensatory effect of visual information in audio-degraded scenarios.

提供机构：

韩国科学技术院

创建时间：

2026-04-30

搜集汇总

数据集介绍

构建方式

LRS-VoxMM源自VoxMM数据集，后者是一个涵盖12个YouTube领域真实口语对话的多模态语料库，包含音频、视频、人工标注的转录文本、说话人标签及面部轨迹等丰富元数据。为了构建标准化的音视频语音识别基准，研究者从VoxMM中筛选出适合单说话人AVSR评估的样本。筛选标准包括：话语时长控制在1至25秒，转录文本长度在2至60词之间，剔除包含不确定转录跨度、重叠语音、歌唱、部分面部可见、说话人离屏或场景切换的样本。随后，通过人工检查移除因强侧面视角、头部转动导致口部不可见或存在严重音视频同步错误的低质量数据。所有样本的音频被重采样至16 kHz，视频以25帧/秒处理且帧尺寸统一为224×224，面部轨迹构建和对齐流程与LRS2/3保持一致。转录文本被规范化为LRS系列格式，数值表达转换为实际口语形式（如2026变为twenty twenty six），仅保留LRS2/3中存在的填充词或感叹词形式。此外，利用wav2vec 2.0大模型进行强制对齐以提供词级时间戳，并附上SyncNet置信度分数和对齐可靠性分数。最终数据集包含约23.5小时的开发集和1.8小时的测试集，目录结构沿袭LRS2/3，同时保留原始片段索引以便回溯元数据。

特点

LRS-VoxMM的核心特点在于其真实世界复杂场景的覆盖与系统性失真评估能力。相较于LRS3等源自广播新闻或TED演讲的基准，该数据集引入了更广泛的声学条件范畴，包括背景噪声、说话风格变化和录音质量差异，视觉方面则呈现更低分辨率、非正面视角、部分遮挡及轻微时间错位等自然面部轨迹分布。这种构建哲学使得基准难度显著提升：实验表明所有基线模型在原始LRS-VoxMM上的词错误率远高于LRS3，视觉语音识别性能甚至低于被认为极具挑战性的WildVSR基准。更具创新性的是，研究团队发布了四组合成失真评估集：噪声容易（信噪比5-15 dB）、噪声困难（-5-0 dB）、三失真容易与三失真困难（联合加性噪声、混响和带宽限制）。其中混响通过模拟室内脉冲响应生成，带宽限制采用随机截止频率的低通滤波器。这种设计使视觉信息的贡献随声学退化程度递增而愈发凸显：音频-only系统在重度失真下性能急剧下降，而音频-视觉系统保持显著鲁棒性。此举填补了现有基准在极端退化条件下标准化评估的空白。

使用方法

LRS-VoxMM专为与现有LRS体系音视频语音识别流水线无缝集成而设计。用户可直接将其作为评估集加载至基于LRS2/3构建的框架中，无需额外预处理。数据集提供原版与四种失真变体共五个评估子集，研究者可选择单独评估原始场景下的性能，或通过噪声容易/困难与三失真容易/困难子集系统性地测试模型在渐进式声学退化下的鲁棒性。词级时间戳和置信度分数支持细粒度分析，允许研究者定位特定时间片段上的识别错误。目录结构延续LRS惯例，每个样本保留VoxMM原始片段索引，便于通过元数据回溯说话人身份等上下文信息。建议在论文复现场景中，直接使用论文报告版本的官方基线模型（如AV-HuBERT、Auto-AVSR、Llama-AVSR）的公开检查点获得参考结果，并通过官方项目页面下载数据集及定制评估脚本。对于需要对比视觉与音频贡献度的研究，可采用联合失真子集以凸显多模态融合在极端条件下的价值。

背景与挑战

背景概述

音频-视觉语音识别（AVSR）领域近年来因深度神经网络的发展和大规模数据集的涌现而取得了显著进展，然而现有主流基准如LRS3等多源自广播新闻或TED演讲等受控场景，其语音清晰、录制条件优越，导致模型性能逐渐饱和，视觉信息的实际贡献难以在理想环境下被充分评估。在此背景下，韩国科学技术院的研究团队于近年提出了LRS-VoxMM数据集，旨在填补真实世界复杂场景下AVSR评估的空白。该数据集基于VoxMM语料库精心筛选而成，覆盖12个多样化领域的日常对话，并严格遵循LRS系列格式，从而可直接嵌入现有AVSR流程。LRS-VoxMM的发布为领域提供了一个更具挑战性与真实性的标准化评估平台，有力地推动了视觉信息在严峻声学条件下作用的研究。

当前挑战

LRS-VoxMM所解决的领域核心挑战在于现有AVSR基准在理想环境下性能趋近饱和，难以揭示视觉模态在真实复杂场景中的不可或缺性。具体而言，研究团队在构建过程中面临多重困难：首先，VoxMM原始数据包含重叠语音、画外音及演唱等不适宜AVSR的样本，需通过时长、词数、声画同步等多维度自动筛选，辅以人工检查以剔除侧脸、遮挡、严重同步误差等劣质片段，确保基准的高质量与一致性；其次，为统一转录格式以消除评估歧义，需将数字转换为口语形式，并谨慎保留仅存在于LRS2/3中的填充词与感叹词；此外，为模拟实际应用中的恶劣声学环境，研究团队还需定制化生成含加性噪声、混响及带宽限制的失真评测集，通过严格设计SNR区间与滤波器参数，构建标准化压力测试方案，从而使得视觉信息的鲁棒增益得以清晰量化。

常用场景

经典使用场景

LRS-VoxMM数据集最为经典的使用场景在于作为音频-视觉语音识别（AVSR）领域的野外（in-the-wild）评测基准。区别于传统的在受控或高质量录播环境下构建的数据集，该基准涵盖了来自YouTube多领域自然对话中的真实音视频片段，并采用与LRS系列兼容的格式进行标准化预处理，从而可直接嵌入现有AVSR模型评估流程。研究者可借此在更具挑战性的声学与视觉条件下，检验模型在噪音频加、混响及带宽受限等退化环境中的鲁棒性，尤其是在audio-only模型表现趋于饱和的背景下，评估视觉信息对语音识别的真实贡献。

衍生相关工作

LRS-VoxMM的发布催生了一系列关注视觉鲁棒性及多模态融合机制的相关工作。研究者基于该基准探索了视觉降质建模与可靠性评分机制，如Hong等人提出的视觉损毁建模方法，以及利用大规模语言模型进行音视频联合推理的Llama-AVSR框架。此外，通过提供标准化退化评测集，该基准也促进了面向multi-distortion条件的语音增强与AVSR联合训练策略的发展，例如EDNet等框架的出现。这些经典工作共同推动了AVSR领域从理想化评测向真实环境评估的范式转变。

数据集最近研究