SlideSpeech

Name: SlideSpeech
Creator: 阿里巴巴达摩院语音实验室
Published: 2023-12-25 21:01:00
License: 暂无描述

arXiv2023-12-25 更新2024-06-21 收录

下载链接：

https://slidespeech.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

SlideSpeech是一个大规模的音频-视觉语料库，特别增加了幻灯片内容，旨在通过额外的文本信息提升语音识别系统的性能。该数据集包含1705个视频，总时长超过1000小时，其中473小时为高质量转录语音，并包含大量实时同步的幻灯片。数据集创建过程中，通过YouTube视频搜索和筛选，确保视频中幻灯片出现超过50%的时间。SlideSpeech适用于在线教育场景中的自动字幕生成，以及其他需要文本增强的多模态语音识别技术。

SlideSpeech is a large-scale audio-visual corpus augmented with slide content, designed to enhance the performance of speech recognition systems via supplementary textual information. This dataset comprises 1705 videos with an overall duration of over 1000 hours, among which 473 hours feature high-quality transcribed speech, and includes a large volume of real-time synchronized slides. During the dataset development process, YouTube video search and filtering were conducted to guarantee that slides appear for more than 50% of each video's total duration. SlideSpeech is applicable to automatic subtitle generation in online education scenarios, as well as other multimodal speech recognition technologies requiring textual augmentation.

提供机构：

阿里巴巴达摩院语音实验室

创建时间：

2023-09-11

搜集汇总

数据集介绍

构建方式

在多媒体语音识别领域，SlideSpeech数据集的构建体现了对多模态信息融合的前沿探索。该数据集通过精心设计的流水线从YouTube平台采集会议与在线教育视频，筛选出幻灯片内容占比超过50%的候选视频。利用内部语音活动检测与自动语音识别系统生成候选转录文本，并结合YouTube字幕文件进行验证。通过史密斯-水曼算法对齐字幕与识别文本，计算置信度分数，最终形成包含1705个视频、1000余小时时长的高质量语料库，其中473小时语音数据具有95%以上的转录置信度。

特点

SlideSpeech的显著特征在于其深度融合的幻灯片文本信息与语音数据的时序同步性。数据集涵盖计算机科学、历史、音乐等22个领域类别，呈现丰富的领域多样性。其核心优势在于每个语音片段都关联着实时对应的幻灯片视觉文本，为研究文本增强的多模态语音识别提供了独特资源。数据集中超过94%的评估集片段包含幻灯片内容，这种音视文同步特性使得专有名词识别优化成为可能，为学术会议和在线教育场景的语音技术研究提供了理想实验平台。

使用方法

该数据集的应用聚焦于文本增强的多模态语音识别技术验证。研究者可提取视频帧中的幻灯片文本，通过光学字符识别技术获取格式化文本，并利用KeyBert等方法提取语义关键词。基于上下文偏置的自动语音识别系统能够融合视觉文本信息，通过多模态注意力机制增强语音特征表示。基准系统采用语境化CTC/注意力编码器-解码器架构，配合上下文短语预测网络，实现对幻灯片专有术语的精准识别。这种使用方法为探索视觉文本信息在语音识别中的补偿机制提供了标准化实验框架。

背景与挑战

背景概述

随着多模态自动语音识别技术的演进，研究者们逐渐认识到传统音频模态在远场或特定领域场景下的局限性。为突破这一瓶颈，武汉大学与阿里巴巴达摩院语音实验室于2023年联合发布了SlideSpeech数据集，该数据集聚焦于利用会议视频中实时同步的幻灯片文本信息，以提升语音识别的准确性与鲁棒性。SlideSpeech涵盖了1,705个视频、超过1,000小时的音频内容，其中473小时为高置信度转录语音，涉及计算机科学、历史、音乐等22个多样化领域。该数据集的构建旨在探索文本增强的多模态语音识别新范式，为在线教育、会议记录等实际应用场景提供了重要的研究基础。

当前挑战

SlideSpeech数据集致力于解决多模态语音识别中文本信息融合的核心挑战，尤其是在会议或教育视频中，专业术语和实体名称的识别易受音频质量或领域特异性影响。构建过程中面临多重困难：首先，从海量在线视频中筛选出包含高质量幻灯片且与语音同步的内容需设计精细的检索与验证流程；其次，幻灯片文本的提取依赖光学字符识别技术，其准确度受字体、布局和图像质量制约；此外，语音与文本的时间对齐、多模态数据的标注一致性以及领域多样性的平衡，均为数据集的构建带来了显著的技术障碍。

常用场景

经典使用场景

在多媒体语音识别领域，SlideSpeech数据集为研究文本增强的多模态自动语音识别提供了经典场景。该数据集通过整合会议视频中的实时同步幻灯片文本信息，构建了一个包含1705个视频、超过1000小时音频及473小时高质量转录语音的大规模语料库。其核心应用在于利用幻灯片中的关键词和上下文信息，辅助提升语音识别系统对专业术语和领域特定词汇的识别准确率，尤其在嘈杂环境或专业领域场景中展现出显著优势。

衍生相关工作

基于SlideSpeech数据集，已衍生出多项经典研究工作，主要集中在上下文感知的语音识别模型优化。例如，研究者利用该数据集开发了结合关键词提取和上下文偏置ASR的基准系统，通过光学字符识别技术从幻灯片中提取文本，并融入语境化CTC/注意力编码器-解码器架构。这些工作不仅验证了文本信息在多模态ASR中的有效性，还促进了如KeyBert关键词提取和CPP网络等技术的应用与改进，为后续多模态融合研究提供了重要参考。

数据集最近研究