DualHyp dataset

github2025-10-15 更新2025-10-17 收录

下载链接：

https://github.com/sungnyun/dualhyp

下载链接

链接失效反馈

官方服务：

资源简介：

DualHyp数据集包含分别由Whisper-large-v3和BRAVEn-large模型生成的ASR和VSR假设。该数据集提供：来自最先进的ASR和VSR模型的预生成N-best假设；通过在训练期间无需在音频-视觉模型上运行推理来加速LLM的训练；为DualHyp框架内的未来研究提供宝贵资源

The DualHyp dataset contains ASR and VSR hypotheses generated by the Whisper-large-v3 and BRAVEn-large models respectively. This dataset provides three core resources: pre-generated N-best hypotheses from state-of-the-art ASR and VSR models; accelerated training of LLMs by eliminating the need to run inference on audio-visual models during the training process; and a valuable resource for future research within the DualHyp framework.

创建时间：

2025-10-14

原始信息汇总

DualHyp数据集概述

数据集简介

DualHyp数据集是一个用于音频-视觉语音识别研究的专用数据集，包含从先进语音识别模型生成的假设数据。

数据集内容

ASR假设：由Whisper-large-v3模型生成
VSR假设：由BRAVEn-large模型生成
数据格式：预生成的N-best假设列表

数据集优势

提供预生成的语音识别假设，加速LLM训练过程
消除训练期间运行音频-视觉模型推理的需求
为DualHyp框架内的未来研究提供宝贵资源

数据集获取

数据集可通过Google Drive链接获取：https://drive.google.com/drive/folders/1lfnsOmek6I_F05tQLSfbyPag-zdNxJec?usp=sharing

数据格式

数据集采用JSON格式，包含以下字段：

Dataset：数据集标识（如LRS2）
Uid：唯一标识符
Caption：真实转录文本
Clean_Wav：音频文件路径
Mouthroi：嘴部ROI数据路径
Video：视频文件路径
nhyps：假设列表

使用要求

必须从原始提供方获取LRS2和LRS3数据集的适当许可
严格遵守原始数据集许可的所有条款和条件
仅限于学术研究和非商业用途
尊重原始许可中关于数据重新分发或共享的任何限制

依赖数据集

LRS2数据集
LRS3数据集

技术基础

该数据集基于以下技术构建：

LipGER框架
CAV2vec数据预处理和损坏协议

搜集汇总

数据集介绍

构建方式

在音视频语音识别研究领域，DualHyp数据集通过整合前沿模型生成的多模态假设构建而成。该数据集采用Whisper-large-v3自动语音识别模型与BRAVEn-large视觉语音识别模型，分别生成独立的N-best假设列表，形成双流语言空间证据。构建过程涉及对LRS2原始数据集的语音与视频流进行模态对齐处理，并通过标准化脚本将假设序列封装为结构化JSON格式，确保数据的一致性与可复现性。

特点

该数据集的核心价值在于其多模态假设的并行呈现特性。每个数据样本同时包含自动语音识别与视觉语音识别生成的假设序列，为语言模型提供跨模态的互补性语言证据。数据集特别设计了噪声环境下的假设对比，涵盖音频干扰与视觉遮挡等多种退化场景，凸显出模态可靠性差异对识别结果的影响。这种设计使得数据集成为研究动态模态权重分配的理想实验平台。

使用方法

研究者可通过配置文件中指定的路径参数加载预处理完成的假设数据，直接用于大型语言模型的微调训练。使用前需通过专用脚本生成ASR与VSR假设的JSON文件，其中包含原始数据路径、真实标注及多候选假设序列。训练时通过修改实验脚本中的数据集路径，可灵活切换不同噪声条件下的假设组合，实现生成式错误校正框架的端到端评估。

背景与挑战

背景概述

音频-视觉语音识别领域长期致力于融合多模态信息以提升识别精度，DualHyp数据集作为该领域的前沿资源，由研究团队于2024年发布，旨在支持生成式错误修正框架的开发。该数据集整合了Whisper-large-v3自动语音识别模型与BRAVEn-large视觉语音识别模型生成的N-best假设，为核心研究问题——如何通过语言空间中的双流假设合成实现鲁棒性语音识别——提供了关键数据基础。其创新性在于直接利用大语言模型对多模态证据进行推理，显著推动了噪声环境下语音识别技术的演进。

当前挑战

音频-视觉语音识别领域面临的核心挑战在于模态间异步性与环境噪声导致的可靠性波动，传统方法难以动态平衡语音与视觉线索的贡献。DualHyp数据集的构建过程需克服多模态假设对齐的复杂性，包括时间戳同步、假设质量评估以及噪声场景下的数据生成。此外，大规模假设数据的标注与校验要求精密算法设计，以确保双流假设在语言空间中的有效融合，为模型训练提供高一致性基准。

常用场景

经典使用场景

在视听语音识别领域，DualHyp数据集通过整合Whisper-large-v3与BRAVEn-large模型生成的N-best假设，为多模态融合研究提供了标准化实验平台。该数据集典型应用于训练大型语言模型进行跨模态推理，使模型能够同时分析音频与视觉流中的互补信息，从而在嘈杂环境中实现更精准的语音识别。其双假设架构特别适用于模拟真实场景下模态可靠性动态变化的复杂情况。

衍生相关工作

基于该数据集衍生的RelPrompt机制开创了噪声感知的提示引导范式，推动了多模态可靠性预测研究的发展。相关成果启发了AV-Corrector等后续工作对时序对齐模型的改进，并在跨模态注意力机制、动态融合网络等方向产生连锁创新。其假设组合策略更被拓展至视听情感识别、多模态机器翻译等相邻领域。

数据集最近研究