InaGVAD

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/ina-foss/InaGVAD

下载链接

链接失效反馈

官方服务：

资源简介：

InaGVAD是一个注释过的视听数据集，专为语音活动检测（VAD）和说话人性别分割（SGS）设计，旨在代表法国电视和广播节目的声学多样性。该数据集包含277个1分钟长的注释录音，分为1小时的开发集和3小时37分钟的测试集，允许公平和可重复的系统评估。数据集提供了扩展的VAD和SGS注释方案，允许根据说话人特征类别描述系统的不同能力，并包含10种非语音事件类别。

InaGVAD 是一个经过标注的视听数据集，专为语音活动检测（Voice Activity Detection, VAD）和说话人性别分割（Speaker Gender Segmentation, SGS）而设计，旨在反映法国电视和广播节目的声学多样性。该数据集包含 277 段时长为 1 分钟的标注录音，分为 1 小时的开发集和 3 小时 37 分钟的测试集，以确保系统评估的公平性和可重复性。数据集提供了扩展的 VAD 和 SGS 标注方案，能够根据说话人特征类别描述系统的不同能力，并包含 10 种非语音事件类别。

创建时间：

2023-09-27

原始信息汇总

InaGVAD数据集概述

数据集描述

名称: InaGVAD
类型: 语音活动检测（VAD）和说话人性别分割（SGS）数据集
目的: 代表法国电视和广播节目的声学多样性
内容: 包含277个1分钟长的注释录音，分为1小时的开发集和3小时37分钟的测试集
来源: 来自10个法国广播和18个电视频道，分为4个声学条件组

数据集特点

注释方案: 提供扩展的VAD和SGS注释，包括：
- 说话人特征类别：性别（女性、男性、未知）、年龄组（年轻、成年、老年）、语音质量（标准、感叹词、非典型）
- 非语音事件类别：掌声、环境噪声、嘈杂声、音效、前景音乐、背景音乐、呼吸声、非清晰笑声、其他、空
可用性: 数据集、注释、评估脚本和基准训练代码均免费提供

数据集用途

研究目的: 用于评估和训练VAD和SGS系统
社会影响: 用于估计视听媒体中女性和男性的讲话时间

数据集下载

下载条件: 需要接受一般使用条款和条件，并通过法国国家视听研究所网站填写表格

引用信息

论文: 在LREC-COLING 2024会议上发表的论文详细描述了InaGVAD数据集
引用格式: 如上文提供的引用格式所示

搜集汇总

数据集介绍

构建方式

InaGVAD数据集的构建旨在捕捉法语电视和广播节目中的语音多样性，通过从10个法语广播和18个电视频道中收集277个1分钟长的标注录音，这些录音被划分为1小时的开发集和3小时37分钟的测试集，以确保系统评估的公平性和可重复性。录音内容涵盖了从新闻到音乐等多种节目类型，分为四个声学条件不同的类别：综合广播、音乐广播、新闻电视和综合电视。数据集提供了精细的语音活动检测（VAD）和说话人性别分割（SGS）标注，包括性别、年龄组和语音质量等说话者特征，以及10种非语音事件类别，如掌声、背景音乐等。

特点

InaGVAD数据集的显著特点在于其精细的标注方案和多样化的声学条件，涵盖了广泛的说话者特征和非语音事件，使其成为评估语音活动检测和说话者性别分割系统的理想资源。此外，数据集的多样性不仅体现在内容上，还包括了从标准语音到非典型语音（如哭泣、笑声等）的广泛覆盖，以及从背景音乐到环境噪音的多种非语音事件。这种全面性使得InaGVAD能够有效评估系统在复杂和多样化声学环境中的表现。

使用方法

InaGVAD数据集适用于语音活动检测（VAD）和说话者性别分割（SGS）系统的开发与评估。用户可以通过提供的评估脚本，在相同的条件下对系统性能进行估计，这些脚本与数据集中包含的基准系统评估条件一致。此外，数据集还提供了基线训练代码，允许用户基于1小时的开发集数据训练新的模型，并通过测试集进行验证。为了使用该数据集，用户需在法国国家视听研究所网站上填写使用条款并下载数据，随后通过pip安装相关依赖进行系统评估或模型训练。

背景与挑战

背景概述

InaGVAD数据集由法国国家视听研究所（INA）发布，旨在解决语音活动检测（VAD）和说话人性别分割（SGS）领域的研究需求。该数据集创建于2024年，主要研究人员包括David Doukhan、Christine Maertens等人，其核心研究问题是如何在多样化的法语电视和广播节目中准确检测语音活动并进行说话人性别分割。InaGVAD数据集通过提供精细的时间编码标注、说话人特征（性别、年龄）以及语音质量的标注，填补了现有语音资源在非语音事件和说话人特征标注方面的空白。该数据集的发布不仅推动了语音处理技术的发展，还为社会学和媒体监管领域的研究提供了重要支持。

当前挑战

InaGVAD数据集面临的挑战主要体现在两个方面。首先，该数据集涵盖了多样化的法语电视和广播内容，包括新闻、音乐、广告等，这些内容的声学条件复杂多变，给语音活动检测和说话人性别分割带来了技术上的挑战。其次，数据集在构建过程中需要对非语音事件和说话人特征进行精细标注，这一过程耗时且复杂，尤其是在处理如笑声、哭声等非典型语音时，标注的准确性和一致性难以保证。此外，数据集的多样性和复杂性使得现有VAD和SGS系统的性能评估变得更加困难，需要开发新的基准和评估方法以确保结果的可靠性和可重复性。

常用场景

经典使用场景

InaGVAD数据集在语音活动检测（VAD）和说话人性别分割（SGS）领域中展现了其经典应用场景。该数据集通过提供精细的时间编码标注，包括语音和非语音事件、说话者特征（性别、年龄）以及语音质量的标注，使得研究者能够开发和评估在复杂声学环境下的VAD和SGS系统。特别是，InaGVAD通过其多样化的法语电视和广播内容，为系统在不同声学条件下的性能评估提供了理想的测试平台。

衍生相关工作

InaGVAD数据集的发布激发了多项相关研究工作。例如，基于该数据集的VAD和SGS系统基准测试，研究者们开发了多种开源系统，如inaSpeechSegmenter和SpeechBrain，这些系统在处理复杂声学环境时表现出色。此外，InaGVAD还促进了基于X-vector的迁移学习策略的研究，展示了如何利用少量但多样化的数据训练出具有竞争力的SGS模型。这些工作不仅推动了语音处理技术的发展，也为相关领域的研究提供了新的思路和方法。

数据集最近研究