INA广播音频语料库
收藏arXiv2026-04-11 更新2026-04-14 收录
下载链接:
https://hf.co/spaces/ina-foss/LREC-2026-Data-Selection-Effects
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由法国国家视听研究所构建,包含从1940至2022年法国113个电视频道与广播电台的47.3万小时原始音频,经去重和分段处理后形成12M条30秒音频片段,总时长10万小时。内容涵盖新闻、广告、纪录片等多种类型,通过Whisper等工具自动标注语音/音乐片段及说话人性别。研究团队进一步构建6个千小时子集用于自监督音频编码器训练,旨在探索多模态音频表示学习,解决语音识别、音乐检测等下游任务的领域适配问题。
This dataset was constructed by the Institut National de l'Audiovisuel (INA). It contains 473,000 hours of raw audio from 113 French TV channels and radio stations spanning from 1940 to 2022. After undergoing deduplication and segmentation, it is formatted into 12 million 30-second audio clips with a total duration of 100,000 hours. The content covers diverse categories including news, advertisements, documentaries and more. Speech/music segments and speakers' genders are automatically annotated via tools such as Whisper. The research team further developed six 1,000-hour subsets for self-supervised audio encoder training, aiming to explore multimodal audio representation learning and resolve domain adaptation issues for downstream tasks such as speech recognition and music detection.
提供机构:
法国国家视听研究所; 国立路桥学院; EPITA研究实验室
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
在音频自监督学习领域,构建高质量预训练数据集是提升模型泛化能力的关键。INA广播音频语料库的构建始于法国国家视听研究所(INA)提供的473千小时电视与广播原始音频,涵盖1940年至2022年间113个频道的多样化内容。通过音频去重工具移除32.6%的重复片段,并剔除与现有评估数据集重叠的623小时内容,确保数据独特性。最终,从剩余音频中随机采样1200万个30秒片段,形成总计10万小时的语料库,并利用Whisper、InaSpeechSegmenter等自动工具进行转录、语音活动检测及音乐识别,为后续可控子集构建奠定基础。
特点
该语料库的显著特征在于其高度的多样性与真实性,源自法国广播媒体的实际播出内容,涵盖了新闻、广告、纪录片、音乐等多种节目类型。语料库中72.51%的片段包含语音,55.23%包含音乐,且91.69%的片段为法语,真实反映了广播环境中的多模态音频场景。此外,通过自动标注获得了语音性别比例(女性占29.95%)及语言分布等元数据,为研究数据选择对模型性能的影响提供了丰富维度。其大规模与多样性使之成为探索通用音频表征学习的理想资源。
使用方法
研究人员可利用该语料库训练自监督音频编码器,如基于data2vec2架构的模型,并通过构建不同属性的子集(如仅语音、无音乐、性别平衡等)探究预训练数据选择对下游任务的影响。模型评估涵盖自动语音识别、语音活动检测、音乐检测及说话人识别等多个任务,其中编码器表征可冻结或微调后接入特定下游分类器。语料库的自动标注信息支持可控实验设计,例如分析去重对模型记忆风险的影响,从而推动音频表征学习在鲁棒性与泛化性方面的进展。
背景与挑战
背景概述
INA广播音频语料库由法国国家视听研究所(INA)联合多所研究机构于2024年构建,旨在探索自监督学习模型在多样化音频内容预训练中的有效性。该语料库源自1940年至2022年间法国电视与广播节目的473,000小时原始音频,经过去重与分段处理,最终形成包含100,000小时、覆盖语音、音乐及环境噪声的预训练数据集。其核心研究问题聚焦于如何通过非纯净、非分割的广播音频提升自监督音频编码器在语音识别、音乐检测等多下游任务中的泛化性能,并为跨语音与音乐机器学习社区的统一模型训练提供数据基础。
当前挑战
该数据集旨在解决音频自监督学习领域的关键挑战:如何构建一个能够同时服务于语音与音乐任务的通用音频表示模型。具体挑战包括:1)领域问题方面,需克服传统语音模型仅依赖纯净语音数据(如LibriSpeech)的局限,探索在包含音乐、噪声的复杂广播环境中实现高效语音识别与音乐检测的平衡;2)构建过程中,面临大规模广播音频去重、版权限制下的数据公开性、以及自动标注工具(如语音活动检测与音乐分割)在混合背景音乐场景下的精度不足等难题。
常用场景
经典使用场景
在音频自监督学习领域,INA广播音频语料库作为一项关键资源,其经典应用场景在于为法语广播内容的音频表示学习提供预训练数据。该语料库源自法国国家视听研究所(INA)的电视与广播档案,涵盖了1940年至2022年间超过10万小时的多样化音频内容,包括新闻、广告、纪录片、音乐和体育节目等。研究者利用这一大规模、未经人工标注的语料库,训练自监督音频编码器模型,以探索数据选择对模型下游任务性能的影响,特别是在语音识别、语音活动检测和音乐检测等任务上的表现。
实际应用
在实际应用层面,INA广播音频语料库为构建面向真实世界场景的音频处理系统提供了坚实的数据支撑。基于该语料库预训练的通用音频编码器,可直接应用于法语广播内容的自动化分析,例如,用于大规模档案内容的语音转录、说话人识别、以及语音与音乐活动的实时检测。这些技术能够赋能媒体机构进行高效的内容编目、版权监测和可访问性服务。同时,其探索的统一编码器框架,有望弥合语音与音乐信息检索社区的技术鸿沟,推动跨模态音频分析工具的开发。
衍生相关工作
围绕INA广播音频语料库,已衍生出一系列重要的相关研究工作。论文中提及,基于data2vec2架构,研究者训练了多个在不同数据子集(如无音乐、仅语音、性别平衡等)上预训练的模型,并系统评估了它们在自动语音识别、语音活动检测、音乐检测和说话人识别等下游任务上的性能。这些工作与先前基于纯净语音数据(如Wav2vec 2.0法语模型)或纯音乐数据(如music2vec)的预训练研究形成了对比与补充。此外,该数据集及其评估范式也为后续研究数据去重效果、模型偏见缓解以及音频自监督学习的通用性提供了重要的基准和启发。
以上内容由遇见数据集搜集并总结生成



