five

ARU_speech_corpus

收藏
Hugging Face2026-04-29 更新2026-04-30 收录
下载链接:
https://huggingface.co/datasets/cjweaver/ARU_speech_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
ARU语音语料库是一个高质量的数据集,包含12位英国英语母语者在消声室环境下录制的720条IEEE(哈佛)句子。该数据集由利物浦大学声学研究单元创建,主要用于语音清晰度研究。所有录音采用专业设备在严格控制的环境下完成,具有65,536 Hz的高采样率和24位深度。语料库包含6男6女共12位说话人(年龄21-47岁)的录音,说话人经过严格筛选,确保具有接近标准发音(Received Pronunciation)的英国口音和正常听力能力。数据集适用于自动语音识别(ASR)、说话人识别、口音分类、语音质量评估等任务,但需要注意其消声室环境导致的声学特性与真实场景的差异。数据集按8:1:1的比例划分为训练集、测试集和验证集,保持性别平衡。
创建时间:
2026-04-23
原始信息汇总

ARU Speech Corpus 数据集概述

基本信息

  • 数据集名称: ARU Speech Corpus (ARU 语音语料库)
  • 语言: 英式英语 (en-GB)
  • 许可证: CC-BY-4.0
  • 数据集大小: 1,000 < n < 10,000
  • 任务类别: 自动语音识别 (ASR)、音频分类
  • 创建者: Dr. Simone Graetzer, Dr. Gary Seiffert, Professor Carl Hopkins (利物浦大学声学研究单位)
  • 资助方: 英国政府
  • 发布者: 利物浦大学声学研究单位
  • 数据来源: https://datacat.liverpool.ac.uk/681/

数据集描述

ARU 语音语料库是在消声室条件下,由 12 位母语为英式英语的发音者(6 男 6 女)录制的 720 句 IEEE (Harvard) 句子组成的高质量单声道录音集合。所有录音于 2017 年 10 月至 11 月在利物浦大学声学研究单位的消声室中使用专业级音频设备完成。数据集采用 65,536 Hz 采样率、24 位深度,并经过精心信号处理以确保所有录音的语音电平一致。发音者均具有接近标准发音 (Received Pronunciation) 的口音,并通过了听力筛查以确认听力正常。

数据集结构

数据实例

每个数据实例包含以下字段:

字段 说明
audio 音频文件,采样率 65,536 Hz,24 位深度
speaker_id 发音者标识符 (01-12)
sex 发音者性别 (M/F)
age 发音者年龄 (21-47 岁)
accent 地理来源(完成中小学教育的郡)
list_number IEEE 词表编号 (1-72)
sentence_number 词表内句子编号 (1-10)
text IEEE 句子转录文本

数据划分

划分 发音者 占比 文件数
训练集 8 人 (4 男 4 女) 67% ~5,760
测试集 2 人 (1 男 1 女) 17% ~1,440
验证集 2 人 (1 男 1 女) 16% ~1,440

总计: 8,640 条语音 (12 位发音者 × 720 句子)

文件命名规则

文件命名格式: ID{speaker}_ARU_Fs=65536Hz_Standard speech - List {list_num} - Sentence {sent_num} - Version 1_0.wav

示例: ID01_ARU_Fs=65536Hz_Standard speech - List 1 - Sentence 1 - Version 1_0.wav

数据收集与处理

录音设置

  • 环境: 利物浦大学声学研究单位消声室 (内部尺寸 5m × 4m × 2.6m)
  • 麦克风: Brüel & Kjær Type 4190 自由场半英寸麦克风
  • 前置放大器: Brüel & Kjær Type 2669
  • 调理放大器: Brüel & Kjær Nexus
  • 发生器模块: Brüel & Kjær LAN-XI Type 3160-A 4/2
  • 录音软件: Brüel & Kjær Pulse Time Data Recorder v20
  • 麦克风距离: 距发音者 1 米轴上
  • 采样率: 65,536 Hz
  • 位深度: 24 位

信号处理

  1. 高通滤波,去除 60 Hz 以下能量(使用 Kaiser 窗口法的有限脉冲响应滤波器)
  2. 低通滤波,衰减 9 kHz 以上能量(消除电气背景噪声)
  3. 使用 VOICEBOX (Brookes, 2014-2016) 的 activlev 函数进行归一化,确保符合 ITU-T P.56 (2011) 标准的语音电平

录音流程

  • 发音者在消声室中舒适就座
  • 被要求以"正常说话力度,如同日常对话"进行发言
  • 句子以随机顺序呈现
  • 通过视频监控确保发音者面向麦克风
  • 出现犹豫或错误时可重复录制

发音者信息

编号 性别 年龄 地理来源 (郡, 国家)
01 47 Avon, 英格兰
02 21 Ceredigion, 威尔士
03 23 Berkshire, 英格兰
04 35 Surrey and Middlesex, 英格兰
05 35 Denbighshire and Conwy, 威尔士
06 47 Kent, 英格兰
07 24 Norfolk, 英格兰
08 32 Merseyside, 英格兰
09 44 Wirral, 英格兰
10 29 Cheshire, 英格兰
11 45 East Sussex, 英格兰
12 32 Leicestershire, 英格兰

使用场景

直接用途

  • 自动语音识别 (ASR) 训练与评估(尤其适用于英式英语)
  • 噪声和混响条件下的语音清晰度研究
  • 发音者识别与验证系统
  • 口音分类与方言研究
  • 语音质量评估基准测试
  • 音频信号处理算法开发
  • 文本转语音 (TTS) 参考语音评估
  • 英式英语变体的声学模型训练

禁止使用场景

  • 用于监控目的的发音者识别(违反参与者同意条款)
  • 生物识别认证系统(参与者未同意此类使用)
  • 训练强烈地区性英式口音的模型(发音者经筛选具有接近标准发音的口音)
  • 情感语音识别(录音以中性、对话式方式呈现)
  • 自发性语音建模(内容为从标准化句子列表中朗读的语音)
  • 多发音者或重叠语音场景(所有录音均为单发音者)
  • 噪声或混响语音建模(录音在消声室条件下进行)

偏差、风险与局限性

人口统计局限性

  • 发音者多样性有限: 仅 12 位发音者
  • 年龄范围: 21-47 岁(排除了儿童和老年人)
  • 地理偏差: 主要来自英格兰(10 人),威尔士代表有限(2 人)
  • 口音偏差: 选择接近标准发音者,不代表英式英语的地区多样性
  • 健康偏差: 排除了任何听力损失、言语障碍或吸烟史的发音者
  • 社会经济偏差: 可能偏向大学相关个体

技术局限性

  • 消声室条件: 不代表真实世界的声学环境
  • 仅朗读语音: 未捕获自发性语音特征
  • 有限音韵内容: 仅限于 IEEE 句子集
  • 单声道: 无多麦克风或空间音频数据
  • 高采样率: 65,536 Hz,许多应用需要降采样

隐私保护

  • 发音者仅通过匿名编号 (01-12) 标识
  • 不包含姓名、联系方式或唯一可识别信息
  • 仅分享汇总人口统计信息:年龄(岁)和受教育郡
  • 所有参与者均提供了公开分发录音的知情同意
  • 参与者明确知晓年龄和受教育郡将与其录音关联
搜集汇总
数据集介绍
main_image_url
构建方式
ARU语音语料库由利物浦大学声学研究单元精心构建,旨在为语音清晰度研究提供高质量的参考录音。数据集采集于2017年10月至11月,在消声室环境中使用专业级音频设备,以65,536 Hz采样率和24位深度录制了12位母语为英式英语的成年说话者(6男6女)朗读的720句IEEE(哈佛)语句。每位说话者经听力学筛查以确保听力正常,且口音接近标准发音。录音后,通过有限脉冲响应滤波器进行60 Hz以下高通滤波和9 kHz以上低通滤波,并利用VOICEBOX工具箱的activlev函数依据ITU-T P.56标准归一化语音电平,确保了一致的活跃语音水平。最终语料库包含8640个独立音频文件,每个文件均附带说话者ID、性别、年龄、地域来源及语句编号等元数据。
特点
该数据集最显著的特点在于其极高的音频质量与精细的元数据标注。所有录音均在无回声反射的消声室中完成,消除了房间声学干扰,使录音适合后期添加可控的混响或噪声条件进行清晰度研究。音频采样率高达65,536 Hz(2^16 Hz),支持超宽带语音处理研究,而24位深度确保了动态范围的充裕。数据集严格平衡了性别比例,训练集、测试集和验证集按8:2:2划分,各集均保持男女各半。每个音频文件均采用标准化命名规则,清晰编码了说话者、采样率、列表和语句编号。然而,受限于仅12位说话者且口音趋同于标准发音,该数据集在口音和人口统计学多样性上存在局限,不适用于强地域性英式口音或自发语音建模。
使用方法
该数据集可直接用于自动语音识别、说话人识别、口音分类及语音质量评估等任务,尤其适合英式英语的宽带及超宽带语音处理研究。使用时,用户需注意:多数现代ASR系统采用16 kHz采样率,因此可能需将音频降采样处理;数据集仅包含朗读式语音,不适合自发语音或情感识别场景。数据集按67%训练、17%测试、16%验证的比例预划分,用户可直接加载对应音频文件,并根据附带的元数据字段(如说话者ID、性别等)进行条件筛选。建议用户在使用时充分认知其消声室环境和有限口音多样性带来的偏差,并考虑与其他数据集结合以提升模型泛化能力。引用时请使用Hopkins等人(2019)提供的BibTeX格式,并遵守CC-BY-4.0许可协议。
背景与挑战
背景概述
ARU Speech Corpus是由利物浦大学声学研究单元的Simone Graetzer博士、Gary Seiffert博士和Carl Hopkins教授于2017年创建的高质量语音数据集,旨在解决语音清晰度研究中的关键问题。该数据集包含12位英国英语母语者(6男6女)在消声室中录制的720条IEEE(哈佛)句子,采样率高达65,536 Hz,位深24位,并经过严格的信号处理以确保一致的水平。作为语音清晰度、自动语音识别和音频信号处理领域的重要资源,ARU Speech Corpus为标准英国英语的参考语音提供了可靠基准,其开放式许可(CC-BY-4.0)促进了广泛学术应用,对听力学、语音通信和人机交互研究产生了深远影响。
当前挑战
该数据集面临的多重挑战首先体现在领域问题的解决上:语音清晰度研究需要严格控制声学环境,但消声室条件与真实世界嘈杂、混响场景存在巨大差异,限制了模型在现实应用中的泛化能力。其次,构建过程中克服了显著困难:严格筛选12位口音接近标准发音的母语者、确保性别年龄平衡并排除听觉或言语障碍个体,导致了样本多样性不足,仅覆盖英格兰及威尔士少数地区,缺乏儿童、老年及非标准口音代表;同时,专业消声室和B&K设备的高成本、24位深度录音后的手动处理,以及每位演讲者720句的逐句采集,均增加了数据生产和标注的复杂性。
常用场景
经典使用场景
ARU Speech Corpus作为一套在消声室环境中录制的高质量语音数据集,其核心价值在于为自动语音识别(ASR)系统提供纯净的参考语音材料。该数据集包含12位英国英语母语者(6男6女)朗读的720句IEEE标准语音句,采样率高达65,536 Hz并采用24位深度编码,特别适用于宽频和超宽频语音处理研究。研究人员常利用其清晰标注的说话人身份、性别、年龄及地域口音信息,进行说话人识别、验证与口音分类等任务。由于所有录音均在无混响条件下完成,该数据集为添加可控噪声或混响进行语音清晰度研究提供了理想的基准材料。
衍生相关工作
ARU Speech Corpus的相关工作主要集中在其为后续研究建立的基准方法上。Hopkins等人(2019)在发布该数据集时详细描述了其录音协议与信号后处理流程,包括依据ITU-T P.56标准进行主动语音电平归一化的方法,这为后续类似语料库的构建提供了可复现的范例。得益于其严格的说话人筛选标准,该数据集已被用于对比研究不同区域口音(如利物浦口音)与标准发音对ASR性能的影响。此外,基于该语料库,研究者还开展了将消声录音与人工混响或噪声叠加的听音实验,用以评估助听器算法在复杂声学场景中的表现。在语音增强领域,该数据集常作为无混响条件的干净参考信号,用于训练和测试深度降噪网络。
数据集最近研究
最新研究方向
在当今语音技术迅猛发展的浪潮中,高保真语音语料库的构建已成为推动自动语音识别与声学建模前沿突破的关键基石。ARU Speech Corpus凭借其无回声室录制的英国英语标准发音、超高采样率及IEEE哈佛句子的语音平衡特性,正被研究者广泛用于宽带与超宽带语音处理算法的基准测试,尤其是在噪声鲁棒性训练和语音清晰度评估领域,该数据集为探索真实声学环境下的泛化性能提供了理想的纯净参照。与此同时,随着对语音数据偏见与公平性议题的关注升温,该语料库在人口统计学多样性、口音代表性及伦理许可方面的明确限制,也促使学界反思并驱动更包容、多元的数据集构建策略,从而在模型可解释性与社会接受度层面产生深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作