ami-av

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/hhoangphuoc/ami-av

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于AMI会议语料库处理得到的音频-视觉数据集，用于音频-视觉语音识别任务，尤其是针对自发对话语音。数据集总共包含83438个片段，其中包括音频、视频或两者的组合。每个片段都具有唯一的标识符，包括会议ID、说话者ID、开始时间、结束时间、持续时间、脚本、音频、视频、是否有唇部视频等信息。音频文件被分割并重采样为16kHz的.wav格式，视频文件被重采样为25fps的.mp4格式。

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

在多媒体语音识别研究领域，ami-av数据集源自著名的AMI会议语料库，经过系统化处理构建而成。该数据集采用精细的句子级分割策略，以会议ID和发言人ID为索引单元，将原始会议录音分割为独立的音频/视频片段。数据处理过程中，音频被重新采样至16kHz的WAV格式，视频则统一转换为25fps的MP4格式，确保数据格式的标准化。原始素材选自AMI语料库中的低分辨率DivX AVI视频和独立头戴式麦克风录音，通过严格的预处理流程保证了数据质量。

使用方法

该数据集主要应用于视听语音识别(AVSR)任务，尤其擅长处理自然对话场景。使用时可通过标准化的文件命名体系快速定位所需片段，命名格式遵循[会议ID]-[发言人ID]-[起止时间]的规范。研究人员可根据has_audio、has_video等特征标志筛选特定模态数据，结合精确到毫秒的时间标注实现多模态对齐分析。数据集采用分层目录结构存储，音频、原始视频和唇部视频分别存放于独立子目录，配套的元数据表格则提供了全面的片段描述信息，便于开发端到端的视听语音识别模型。

背景与挑战

背景概述

AMI-AV数据集源自爱丁堡大学信息学院开发的AMI会议语料库，是面向多模态语音识别研究的重要资源。该数据集由研究团队于21世纪初构建，旨在解决自发对话场景下的音视频语音识别难题。作为会话分析领域的标杆性数据，其创新性在于将传统语音识别扩展至视觉模态，通过捕捉说话人的唇部运动等副语言特征，显著提升了噪声环境下的识别鲁棒性。数据集包含83,438个句子级音视频片段，覆盖80,285条音频和78,685段视频，为探究多模态信息融合机制提供了实证基础。

当前挑战

该数据集面临的核心挑战体现在两个维度：在学术层面，如何有效融合异步的音频流与视频流特征仍是多模态语音识别领域的瓶颈问题，特别是针对会议场景中常见的重叠语音和远场噪声。在构建层面，原始数据的异构性带来显著挑战——需将不同采样率的DivX AVI视频与独立头戴设备音频进行毫秒级对齐，同时保持唇部区域视频的时空一致性。数据标注过程中，自发对话的言语不流畅现象（如停顿、重复）也大幅增加了转录的复杂度。

常用场景

经典使用场景

在语音识别领域，ami-av数据集因其丰富的音频-视觉信息而被广泛应用于自发对话语音识别任务。数据集通过会议场景中的多模态数据，为研究者提供了分析口语表达、非语言线索及语音-视觉同步现象的独特平台。其句子级别的分段结构特别适合训练端到端的音视融合模型，在噪声环境或语音模糊场景下展现出显著优势。

解决学术问题

该数据集有效解决了传统语音识别在自发对话场景中的三大挑战：非结构化语音的转录准确率低、副语言信息缺失导致的语义理解偏差，以及视觉线索与语音时序对齐的建模困难。通过提供精确的时间标注和多模态数据，它推动了视听语音识别（AVSR）领域对上下文感知、鲁棒性建模等核心问题的研究进展，填补了真实会议场景数据集的空白。

实际应用

实际应用中，ami-av数据集支撑了智能会议系统、远程协作工具等产品的开发，其多模态特性显著提升了虚拟助手在嘈杂环境中的交互能力。医疗领域利用该数据集训练辅助诊断系统，通过分析患者的语音-面部表情关联特征来评估神经系统疾病。教育科技公司则基于其开发发音矫正应用，实时反馈学习者的唇部运动与语音匹配度。

数据集最近研究