five

InaGVAD|语音活动检测数据集|说话人性别分割数据集

收藏
github2024-05-15 更新2024-05-31 收录
语音活动检测
说话人性别分割
下载链接:
https://github.com/ina-foss/InaGVAD
下载链接
链接失效反馈
资源简介:
InaGVAD是一个注释过的视听数据集,专为语音活动检测(VAD)和说话人性别分割(SGS)设计,旨在代表法国电视和广播节目的声学多样性。该数据集包含277个1分钟长的注释录音,分为1小时的开发集和3小时37分钟的测试集,允许公平和可重复的系统评估。数据集提供了扩展的VAD和SGS注释方案,允许根据说话人特征类别描述系统的不同能力,并包含10种非语音事件类别。

InaGVAD 是一个经过标注的视听数据集,专为语音活动检测(Voice Activity Detection, VAD)和说话人性别分割(Speaker Gender Segmentation, SGS)而设计,旨在反映法国电视和广播节目的声学多样性。该数据集包含 277 段时长为 1 分钟的标注录音,分为 1 小时的开发集和 3 小时 37 分钟的测试集,以确保系统评估的公平性和可重复性。数据集提供了扩展的 VAD 和 SGS 标注方案,能够根据说话人特征类别描述系统的不同能力,并包含 10 种非语音事件类别。
创建时间:
2023-09-27
原始信息汇总

InaGVAD数据集概述

数据集描述

  • 名称: InaGVAD
  • 类型: 语音活动检测(VAD)和说话人性别分割(SGS)数据集
  • 目的: 代表法国电视和广播节目的声学多样性
  • 内容: 包含277个1分钟长的注释录音,分为1小时的开发集和3小时37分钟的测试集
  • 来源: 来自10个法国广播和18个电视频道,分为4个声学条件组

数据集特点

  • 注释方案: 提供扩展的VAD和SGS注释,包括:
    • 说话人特征类别:性别(女性、男性、未知)、年龄组(年轻、成年、老年)、语音质量(标准、感叹词、非典型)
    • 非语音事件类别:掌声、环境噪声、嘈杂声、音效、前景音乐、背景音乐、呼吸声、非清晰笑声、其他、空
  • 可用性: 数据集、注释、评估脚本和基准训练代码均免费提供

数据集用途

  • 研究目的: 用于评估和训练VAD和SGS系统
  • 社会影响: 用于估计视听媒体中女性和男性的讲话时间

数据集下载

  • 下载条件: 需要接受一般使用条款和条件,并通过法国国家视听研究所网站填写表格

引用信息

  • 论文: 在LREC-COLING 2024会议上发表的论文详细描述了InaGVAD数据集
  • 引用格式: 如上文提供的引用格式所示
AI搜集汇总
数据集介绍
main_image_url
构建方式
InaGVAD数据集的构建旨在捕捉法语电视和广播节目中的语音多样性,通过从10个法语广播和18个电视频道中收集277个1分钟长的标注录音,这些录音被划分为1小时的开发集和3小时37分钟的测试集,以确保系统评估的公平性和可重复性。录音内容涵盖了从新闻到音乐等多种节目类型,分为四个声学条件不同的类别:综合广播、音乐广播、新闻电视和综合电视。数据集提供了精细的语音活动检测(VAD)和说话人性别分割(SGS)标注,包括性别、年龄组和语音质量等说话者特征,以及10种非语音事件类别,如掌声、背景音乐等。
特点
InaGVAD数据集的显著特点在于其精细的标注方案和多样化的声学条件,涵盖了广泛的说话者特征和非语音事件,使其成为评估语音活动检测和说话者性别分割系统的理想资源。此外,数据集的多样性不仅体现在内容上,还包括了从标准语音到非典型语音(如哭泣、笑声等)的广泛覆盖,以及从背景音乐到环境噪音的多种非语音事件。这种全面性使得InaGVAD能够有效评估系统在复杂和多样化声学环境中的表现。
使用方法
InaGVAD数据集适用于语音活动检测(VAD)和说话者性别分割(SGS)系统的开发与评估。用户可以通过提供的评估脚本,在相同的条件下对系统性能进行估计,这些脚本与数据集中包含的基准系统评估条件一致。此外,数据集还提供了基线训练代码,允许用户基于1小时的开发集数据训练新的模型,并通过测试集进行验证。为了使用该数据集,用户需在法国国家视听研究所网站上填写使用条款并下载数据,随后通过pip安装相关依赖进行系统评估或模型训练。
背景与挑战
背景概述
InaGVAD数据集由法国国家视听研究所(INA)发布,旨在解决语音活动检测(VAD)和说话人性别分割(SGS)领域的研究需求。该数据集创建于2024年,主要研究人员包括David Doukhan、Christine Maertens等人,其核心研究问题是如何在多样化的法语电视和广播节目中准确检测语音活动并进行说话人性别分割。InaGVAD数据集通过提供精细的时间编码标注、说话人特征(性别、年龄)以及语音质量的标注,填补了现有语音资源在非语音事件和说话人特征标注方面的空白。该数据集的发布不仅推动了语音处理技术的发展,还为社会学和媒体监管领域的研究提供了重要支持。
当前挑战
InaGVAD数据集面临的挑战主要体现在两个方面。首先,该数据集涵盖了多样化的法语电视和广播内容,包括新闻、音乐、广告等,这些内容的声学条件复杂多变,给语音活动检测和说话人性别分割带来了技术上的挑战。其次,数据集在构建过程中需要对非语音事件和说话人特征进行精细标注,这一过程耗时且复杂,尤其是在处理如笑声、哭声等非典型语音时,标注的准确性和一致性难以保证。此外,数据集的多样性和复杂性使得现有VAD和SGS系统的性能评估变得更加困难,需要开发新的基准和评估方法以确保结果的可靠性和可重复性。
常用场景
经典使用场景
InaGVAD数据集在语音活动检测(VAD)和说话人性别分割(SGS)领域中展现了其经典应用场景。该数据集通过提供精细的时间编码标注,包括语音和非语音事件、说话者特征(性别、年龄)以及语音质量的标注,使得研究者能够开发和评估在复杂声学环境下的VAD和SGS系统。特别是,InaGVAD通过其多样化的法语电视和广播内容,为系统在不同声学条件下的性能评估提供了理想的测试平台。
衍生相关工作
InaGVAD数据集的发布激发了多项相关研究工作。例如,基于该数据集的VAD和SGS系统基准测试,研究者们开发了多种开源系统,如inaSpeechSegmenter和SpeechBrain,这些系统在处理复杂声学环境时表现出色。此外,InaGVAD还促进了基于X-vector的迁移学习策略的研究,展示了如何利用少量但多样化的数据训练出具有竞争力的SGS模型。这些工作不仅推动了语音处理技术的发展,也为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
InaGVAD数据集在语音活动检测(VAD)和说话人性别分割(SGS)领域的最新研究方向主要集中在提升系统对法语电视和广播节目多样性的适应能力。随着数字人文研究的兴起以及法国视听监管机构对性别平等的关注,InaGVAD通过提供精细的时间编码和说话者特征标注,填补了现有语音资源在非语音事件、说话者特质及语音质量标注方面的空白。研究者们正利用该数据集开发和评估基于X-vector的迁移学习策略,以期在单一但多样化的数据集上实现具有竞争力的SGS结果。此外,InaGVAD的开放性为未来在该领域的进一步研究奠定了基础,尤其是在处理复杂声学条件和非典型语音表现方面,具有重要的社会和学术意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国1km分辨率逐月NDVI数据集(2001-2023年)

中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。

国家地球系统科学数据中心 收录