InaGVAD
收藏arXiv2024-06-07 更新2024-06-17 收录
下载链接:
https://www.ina.fr/recherche/dataset-project
下载链接
链接失效反馈官方服务:
资源简介:
InaGVAD数据集是由法国国家视听研究所创建的音频语料库,涵盖了10个广播电台和18个电视台的多样化内容。该数据集包含277个1分钟长的音频片段,旨在代表法国视听节目的声学多样性。数据集提供了语音活动检测(VAD)和说话人性别分割(SGS)的标注,以及说话人特征(性别、年龄、声音质量)和10种非语音事件类别的详细信息。InaGVAD数据集被分为1小时的开发集和3小时37分钟的测试集,用于公平和可重复的系统评估。该数据集的应用领域包括自动语音识别、说话人识别和媒体中性别代表性的分析,旨在解决媒体中男女说话时间的监测问题。
The InaGVAD dataset is an audio corpus created by the Institut National de l'Audiovisuel (INA), covering diverse content from 10 radio stations and 18 television channels. It contains 277 one-minute-long audio clips, designed to represent the acoustic diversity of French audiovisual programs. The dataset provides annotations for Voice Activity Detection (VAD) and Speaker Gender Segmentation (SGS), as well as detailed information on speaker characteristics including gender, age, and voice quality, plus 10 categories of non-speech events. The InaGVAD dataset is divided into a 1-hour development set and a 3-hour and 37-minute test set, enabling fair and reproducible system evaluation. Its application domains include automatic speech recognition, speaker recognition, and analysis of gender representation in media, aiming to address the problem of monitoring the speaking time of men and women in media content.
提供机构:
法国国家视听研究所
创建时间:
2024-06-07
搜集汇总
背景与挑战
背景概述
InaGVAD数据集是一个由法国国家视听研究所创建的音频语料库,包含277个1分钟长的音频片段,覆盖广播和电视内容,以代表法国视听节目的声学多样性。它提供语音活动检测和说话人性别分割的详细标注,以及说话人特征和非语音事件类别信息,旨在支持自动语音识别、说话人识别和媒体性别代表性分析的应用。
以上内容由遇见数据集搜集并总结生成



