VoxConverse

github2025-02-20 更新2025-02-21 收录

下载链接：

https://github.com/JaesungHuh/av-diarization

下载链接

链接失效反馈

官方服务：

资源简介：

VoxConverse数据集，用于音频视觉演讲者对话识别

The VoxConverse dataset for audio-visual speaker conversation recognition

创建时间：

2025-02-19

原始信息汇总

AV-Diarization 数据集概述

数据集简介

该数据集是一个用于运行音频-视觉说话人分割管道的代码仓库，该管道在论文 "Spot the conversation: speaker diarisation in the wild" (Interspeech 2020) 中提出。
该管道被用于制作 VoxConverse 数据集。

安装

克隆仓库 shell git clone https://github.com/JaesungHuh/av-diarization.git cd av-diarization
安装包 shell conda create -n avdiarizer python=3.10 -y conda activate avdiarizer pip install --upgrade pip pip install -e .

需要安装命令行工具 ffmpeg。

使用

运行命令进行说话人分割，结果保存在指定的输出目录。 shell python diarize.py -i [PATH OF VIDEOFILE] -o [PATH OF OUTPUT DIRECTORY]
可选参数包括可视化、声活动检测模型类型、说话人识别模型类型等。

版本

原始版本使用 pywebrtcvad 声活动检测和 resnetse34 说话人识别模型。
新版本使用 silero 声活动检测和 ecapa-tdnn 说话人识别模型。

可视化分割结果

输出文件包括 rttm 文件和 json 文件，可以使用 VIA Video Annotator 工具进行可视化。

致谢

该代码基于以下项目：S3FD、SyncNet、Speechbrain project、VoxCeleb_trainer、Silero-vad、Pywebrtcvad、ECAPA-TDNN。

引用

使用此代码请注明论文 "Spot the conversation: speaker diarisation in the wild"。

搜集汇总

数据集介绍

构建方式

VoxConverse数据集是通过运用音频-视觉讲者分割管道构建而成，该管道在论文'Spot the conversation: speaker diarisation in the wild'中提出。此数据集的构建采用了一系列先进的技术，包括S3FD人脸检测、SyncNet音频-视觉同步网络、以及基于深度学习的讲者识别模型，从而实现野外环境下的讲者分割。

使用方法

使用VoxConverse数据集首先需要安装相关依赖和ffmpeg工具。通过执行提供的Python脚本，用户可以指定输入视频文件和输出目录，选择是否进行可视化，以及指定使用的VAD和讲者识别模型。生成的结果包括rttm文件和json文件，后者可用于视频注释工具中进行结果的可视化查看。

背景与挑战

背景概述

VoxConverse数据集是在2020年由Joon Son Chung等研究人员提出的音频视觉说话人分割管道的基础上构建的。该数据集的创建旨在解决野外环境中说话人分割（speaker diarization）的问题，即在未经控制的环境下对视频中的说话人进行识别和分割。该研究对于音频处理、机器学习和计算机视觉等领域具有重要的指导意义，其成果被广泛应用于智能视频分析、语音识别和增强现实等前沿技术中。

当前挑战

在构建VoxConverse数据集的过程中，研究人员面临了多方面的挑战。首先，野外环境下音频和视频的同步和质量稳定性对说话人分割提出了较高的要求。其次，数据集的构建需要解决如何有效整合音频视觉信息、提高说话人识别的准确性和鲁棒性的问题。此外，野外数据的多样性和复杂性也给数据集的标注和模型训练带来了额外的挑战。

常用场景

经典使用场景

VoxConverse数据集源于对音频视觉演讲者分割技术的探索，其经典使用场景在于对视频中的对话进行自动分割，识别并标注出不同说话人的发言时段，为音频视频数据的内容分析提供了基础。

解决学术问题

该数据集解决了多说话人场景下的语音识别与分割问题，为语音信号处理、语音识别以及多模态信息处理等领域提供了重要支撑，极大地推动了相关学术研究的进展。

实际应用

在实际应用中，VoxConverse数据集可用于视频会议系统、智能交互系统以及媒体内容分析等领域，为这些领域提供了高效准确的说话人分割和识别技术。

数据集最近研究