five

spINAch

收藏
arXiv2026-03-17 更新2026-03-18 收录
下载链接:
https://www.ina.fr/institut-national-audiovisuel/research/dataset-project#spINAch
下载链接
链接失效反馈
官方服务:
资源简介:
spINAch是由法国国家视听研究所联合多所高校构建的历时性法语广播语音语料库,包含1955-2015年间2000余名说话者的320小时录音,覆盖20-95岁不同年龄段及性别平衡群体。该数据集通过广播电视档案精选样本,采用自动化转写与语音对齐技术,提取超过300万个元音的基频和共振峰特征,其独特价值在于支持巴黎法语语音演变研究,特别是音高变化和元音对立中性化等现象的跨时代分析。
提供机构:
巴黎萨克雷大学·LISN实验室; 法国国家视听研究所; 巴黎第八大学·LIASD实验室
创建时间:
2026-03-17
原始信息汇总

数据集项目概述

数据集来源

  • 提供机构:法国国家视听研究所(INA)
  • 服务器地址:https://dataset.ina.fr
  • 访问方式:FTP服务器,需注册并拥有FTP客户端

数据集总体描述

  • 目的:为科学和技术社区提供来自INA馆藏的视听文档、文档页及相关元数据语料库,严格用于多媒体内容搜索和分析工具的最终确定、实验和评估。
  • 用途限制:仅限科学研究用途。
  • 访问条件:用户必须注册,并确保其结构为研究实验室、创新型中小企业或拥有科学研究服务/活动的其他法律实体。

子语料库列表

当前可用的子语料库包括:

  1. 6 months of broadcast news
  2. MEXAction
  3. Antract - Actualités françaises
  4. Le Misanthrope
  5. The Snowden revelations
  6. The Artist
  7. Visual context for TV Programs
  8. InaGVAD
  9. is24_news_topic
  10. spINAch

子语料库详情

1. 6 months of broadcast news

  • 名称:2007 F2, 6 mois de 20 heures
  • 内容描述:2007年1月1日至6月30日法国2台“20 heures”电视新闻广播的全部内容及相应的档案管理员注释。
  • 视频文档数量:181
  • 媒体格式:MPEG-1
  • 频道:France2
  • 总时长:约100小时
  • 时间跨度:2007年1月1日 – 2007年6月30日
  • 档案管理员注释数量:181条摘要注释和约4500条主题注释
  • 注释格式:XML/MS-Word

2. MEXaction

  • 名称:MEXaction
  • 内容描述:为墨西哥文化项目(用于保存和传播墨西哥文化的多媒体馆藏索引)收集的各种电视文档语料库。
  • 视频文档数量:114
  • 媒体格式:MPEG-1
  • 频道:Les Actualités Françaises, ORTF, TF1, FR2, FR3
  • 总时长:约77小时
  • 时间跨度:1942 – 2011
  • 档案管理员注释数量:114
  • 注释格式:XML/MS-Word

3. Antract - Actualités françaises

  • 名称:Antract - Actualités françaises
  • 内容描述:1945年至1969年间在电影院放映的25年每周新闻片。
  • 视频文档数量:约1260
  • 媒体格式:MPEG-4 AVC (H.264)
  • 频道:Les Actualités Françaises
  • 总时长:约300小时
  • 时间跨度:1945 – 1969
  • 档案管理员注释数量:约12000
  • 注释格式:Excel

4. Le Misanthrope

  • 名称:Le Misanthrope
  • 内容描述:莫里哀戏剧《恨世者》的六个电视版本。
  • 视频文档数量:6
  • 媒体格式:MPEG-4 AVC (H.264)
  • 频道:ORTF, TF1, A2, FR3
  • 总时长:约12小时
  • 时间跨度:1959 – 1980
  • 档案管理员注释数量:6
  • 注释格式:XML/MS-Word

5. The Snowden revelations

  • 名称:L’affaire Snowden
  • 内容描述:3个电视频道(France2, France5, France24)和3个广播频道(France Inter, France Info, France Culture)专注于爱德华·斯诺登事件的完整一周广播。
  • 视频文档数量:1008
  • 媒体格式:MPEG-4 AVC (H.264) 及 MPEG-1/2 Audio Layer 3 (MP3)
  • 频道:France2, France5, France24, France Inter, France Info, France Culture
  • 总时长:1008小时
  • 时间跨度:2013年6月7日 – 2013年6月14日
  • 档案管理员注释数量:每个频道约1000条
  • 注释格式:XML/MS-Word

6. The Artist

  • 名称:Le sacre de The Artist
  • 内容描述:电影《艺术家》获得奥斯卡最佳影片奖时,3个电视频道(France2, France5, France24)和3个广播频道(France Inter, France Info, France Culture)的完整一周广播。
  • 视频文档数量:1008
  • 媒体格式:MPEG-4 AVC (H.264) 及 MPEG-1/2 Audio Layer 3 (MP3)
  • 频道:France2, France5, France24, France Inter, France Info, France Culture
  • 总时长:1008小时
  • 时间跨度:2012年2月26日 – 2012年3月4日
  • 档案管理员注释数量:每个频道约1000条
  • 注释格式:XML/MS-Word

7. Visual context for TV Programs

  • 名称:Visual context for TV Programs
  • 内容描述:来自电视广播(2010-2019)的1000万帧语料库,用于学习视觉上下文。所有人脸均已模糊。数据集包含训练集、验证集、测试集和验证测试。帧被组织成对(一个对由包含至少一个共同人脸的帧组成)和/或三元组,以便用于训练或评估。
  • 视频帧数量:10000000
  • 媒体格式:JPG
  • 时间跨度:2010年1月1日 - 2019年12月31日

8. InaGVAD

  • 名称:InaGVAD
  • 内容描述:一个具有挑战性的法国电视和广播语料库,基于2021年至2022年播出的28个频道的随机抽样,为语音活动检测和说话人性别分割进行标注。
  • 音频文档数量:277
  • 媒体格式:Wav 16000 Hz mono
  • 频道:4个连续电视新闻频道(BFM TV, CNews, France 24, LCI),14个综合电视频道(Arte, Canal+, Chérie 25, France 2, France 3, France 4, France 5, Gulli, M6, NRJ 12, Paris Première, TV5 monde, TF1, TFX),6个音乐广播频道(France Bleu, FIP, France Musique, Fun radio, Mouv, Skyrock)和4个综合广播频道(France Culture, France Info, RMC, RTL)
  • 总时长:277分钟
  • 时间跨度:2021年1月1日 - 2022年12月31日
  • 标注格式:CSV, TRS

9. is24_news_topic

  • 名称:is24_news_topic
  • 内容描述:一个时长03小时44分钟的广播新闻电视和广播数据集,按主题进行标注。每个对话都按照18个主题方案进行标注,同时包含地理定位和其他信息。
  • 音频文档数量:804
  • 媒体格式:音频文件为MKA 48000 Hz stereo,视频文件为MKV h264
  • 频道:来自5个24/7新闻周期频道(France Info TV, CNews, LCI, France 24, BFMTV)的摘录,以及来自7个其他电视/广播频道(RTL, TF1, M6, RMC, France Info Radio, Europe 1, France 2)声明为新闻的节目。
  • 总时长:3小时44分钟
  • 时间跨度:2023年5月和10月
  • 标注格式:JSON

10. spINAch

  • 名称:spINAch
  • 内容描述:该语料库包含从20世纪50年代至今采样的2109位法国名人的语音片段,专为研究巴黎法语的语音演变(历时分析)而设计。语料库在性别、年龄和时期上保持平衡。
  • 音频文档数量:122 715
  • 媒体格式:wav 16000 Hz mono
  • 频道:电视和广播
  • 总时长:330小时
  • 时间跨度:7个时期(1955-56; 1965-66, 1975-76, 1985-86, 1995-96, 2005-06, 2015-16)
  • 标注格式:CSV,包含自动和手动转录

使用条款摘要

  • 许可类型:免费、非独占、不可转让,严格用于科学研究。
  • 使用期限:自INA发送登录名和密码之日起两年。
  • 允许用途
    • 将语料库复制到用户严格负责并专用于用户科学研究的安 全服务器上。
    • 实验/评估/测试多媒体内容的研究和分析工具。
    • 在有关多媒体内容分析的会议和科学活动中,向第三方提供包含全部或部分语料库的研究结果的科学演示。
    • 在有关多媒体内容分析的会议和科学活动中,提供基于全部或部分语料库的原型的科学演示。
  • 禁止事项
    • 授予分许可、出售、分发、转让、分配、出借、出租、传播、向未经授权的人员提供全部或部分语料库。
    • 修改或基于语料库创建衍生作品。
    • 将语料库用于非法或非法目的。
    • 使未经授权的人员能够访问语料库。
    • 将全部或部分语料库用于商业目的。
  • 归属要求:任何对语料库的使用、基于语料库产生的研究结果以及任何出版物,都必须注明语料库来源并提及INA。
  • 数据保留:使用期结束后,用户必须停止使用并删除语料库及其所有副本。
  • 早期终止:如果用户和/或授权人员违反使用条款、语料库受益人提出索赔、用户结构发生出售/合并/收购或研究活动停止,INA有权提前终止访问。
搜集汇总
数据集介绍
main_image_url
构建方式
spINAch数据集的构建依托于法国国家视听研究所(INA)丰富的广播与电视档案资源,通过精心设计的跨时段分层抽样策略实现。研究团队与档案专家协作,从1955年至2015年间的七个十年期段中,依据说话者的性别与年龄(20-95岁)进行平衡筛选,目标为每个性别-年龄-时期类别收录约30位说话者。原始音频经过自动化信号处理流程,包括音轨提取、语音活动检测、说话人日志化以及背景音乐与噪声的滤除,随后采用Whisper模型进行自动转写,并利用Montreal Forced Aligner进行音素级强制对齐,最终提取了超过300万个元音的基础频率与共振峰数据,确保了语料在声学分析层面的高质量与一致性。
特点
该数据集的核心特征在于其历时性、大规模与精细的人口学平衡。它涵盖了跨越60年的法语广播语音,收录了超过2000位说话者、总计320小时的语音样本,在时间跨度、说话者数量与语音时长上均显著超越了多数现有历时语音资源。数据在性别与年龄维度上实现了结构化平衡,为探究社会人口学因素对语言演变的影响提供了可靠基础。此外,数据集提供了自动转写文本、音素级对齐标注以及详尽的声学参数(如基频与共振峰),特别聚焦于巴黎法语的元音系统演变,使其成为研究语言历时变化、社会语言学变异及语音声学特性的宝贵资源。
使用方法
spINAch数据集主要服务于语音学、语言学及计算语言学研究。研究者可通过其公开访问链接获取音频文件、转写文本、音素对齐数据及预计算的声学测量结果。该资源支持多种分析路径:利用历时维度可考察语音特征(如基频、元音格局)随时间的社会文化演变;结合性别与年龄标签能深入分析社会身份在语音中的索引性表达;预对齐的音素数据便于开展音系层面的定量研究。数据集的构建报告与初步分析示例为相关研究提供了方法学参考,用户可依据具体课题,提取特定时期、人口学群体的子集进行深入的统计建模与理论探讨。
背景与挑战
背景概述
spINAch是一个大规模历时性法语广播语音语料库,由法国国家视听研究所(INA)和巴黎萨克雷大学等机构的研究团队于2026年构建并发布。该语料库旨在系统研究巴黎法语在长达60年(1955年至2015年)时间跨度内的语音演变规律,其核心科学问题聚焦于社会人口学因素(特别是说话者的年龄与性别)如何影响并塑造语言的历时性变化。通过精心平衡超过两千名说话者在七个历史时期、四个年龄组和两种性别上的分布,并收录超过320小时的广播访谈语音,spINAch为语言演变研究提供了前所未有的高维度控制数据。该数据集不仅填补了法语历时语音资源在规模与平衡性上的空白,其公开可用性也极大地推动了社会语言学、语音学及计算语言学领域对语言变异与演化的实证研究。
当前挑战
spINAch数据集致力于解决历时语音学领域的一个核心挑战:如何在控制说话者社会人口学变量的前提下,系统性观测并量化语言在数十年间的演变轨迹。具体而言,其旨在克服传统历时研究因数据稀缺、样本不平衡及录音风格混杂而难以分离年龄、时期与世代效应的难题。在构建过程中,研究团队面临多重挑战:首先,从浩如烟海的广播档案中精准识别并提取满足特定年龄、性别和时期条件的说话者语音,需依赖档案专家的专业知识与大量人工校验,尤其早期档案中女性及特定年龄段说话者的代表性不足构成了显著偏差。其次,为确保语音分析的声学可靠性,需开发并集成复杂的自动化处理流水线,包括语音活动检测、说话人日志、自动转录、语音对齐以及背景音乐与噪声的滤除,同时需验证不同时期处理算法更新所带来的数据一致性。最后,在遵守版权与隐私法规的前提下,对说话者身份进行匿名化处理并以研究为目的公开数据,亦构成了法律与伦理层面的实践挑战。
常用场景
经典使用场景
在语音学与社会语言学领域,spINAch数据集为研究巴黎法语历时演变提供了关键资源。该数据集涵盖1955年至2015年间的广播语音,平衡了说话者的性别与年龄分布,使得学者能够深入分析语音特征随时间的变化趋势。例如,研究者可利用该数据集探讨元音系统演变、基频变化等经典语音学问题,尤其适用于考察社会因素如性别与年龄对语音产出的影响。
解决学术问题
spINAch数据集有效解决了历时语音研究中资源稀缺的难题。传统研究常受限于录音样本不足或缺乏平衡的说话者特征,而该数据集通过大规模、跨时间段的语音采集,使学者能够系统考察语音演变中的真实时间与表象时间差异。例如,论文中利用该数据集揭示了巴黎法语中/a/与/A/对立的中性化过程,以及基频随年龄与性别的交互变化,为语言变化理论提供了实证依据。
衍生相关工作
spINAch数据集已催生一系列关于法语历时语音的深入研究。例如,Elie等人(2024)基于该数据探讨了不同性别与时期下说话者的发音配置差异;Cęcelewski等人(2024)则聚焦于男性说话者的元音演变。这些工作扩展了社会语音学与历时语言学的实证边界,并为后续研究如语音风格演化、媒体语言标准化等议题提供了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作