five

The Edinburgh International Accents of English Corpus (EdAcc)

收藏
arXiv2023-03-31 更新2024-06-21 收录
下载链接:
https://groups.inf.ed.ac.uk/edacc/
下载链接
链接失效反馈
官方服务:
资源简介:
The Edinburgh International Accents of English Corpus (EdAcc) 是由爱丁堡大学信息学院创建的一个旨在代表全球英语多样性的数据集。该数据集包含近40小时的二元视频通话对话,涵盖超过40种自报英语口音,来自51种不同母语的说话者。创建过程中,通过Zoom视频通话软件收集自然对话,并详细记录每位说话者的语言背景。EdAcc数据集主要用于自动语音识别(ASR)系统的研究,特别是解决现有ASR模型在处理不同英语口音时的性能问题,推动更广泛的英语口音研究,以创建更加包容的语音技术。

The Edinburgh International Accents of English Corpus (EdAcc) is a dataset developed by the School of Informatics at the University of Edinburgh, designed to represent the global diversity of the English language. This corpus contains nearly 40 hours of two-way video call conversations, covering over 40 self-reported English accents from speakers with 51 distinct native languages. During its creation, natural dialogues were collected using the Zoom videoconferencing software, and detailed linguistic backgrounds of each participant were documented. The EdAcc corpus is primarily utilized for research on automatic speech recognition (ASR) systems, particularly to address the performance limitations of existing ASR models when processing diverse English accents, and to promote broader research on English accents to develop more inclusive speech technologies.
提供机构:
信息学院,爱丁堡大学
创建时间:
2023-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别领域,为捕捉英语口音的多样性,爱丁堡国际英语口音语料库(EdAcc)采用了一种创新的数据收集方法。研究团队通过Zoom视频通话软件,邀请参与者与熟识的朋友进行自然对话,以模拟真实社交场景中的语音交流。每位参与者需完成详细的背景问卷,涵盖其母语、英语学习经历及居住历史等信息,确保数据集的丰富性和代表性。对话内容由专业转录员手动转写,并经过后处理以统一拼写和词汇规范,最终形成包含近40小时音频的语料库。
特点
该数据集的核心特点在于其广泛的口音覆盖和细致的背景标注。EdAcc收录了来自51种不同母语背景的说话者,涵盖超过40种自报英语口音,包括南非、加纳、印度、牙买加和尼日利亚等多种变体。与传统的朗读语音数据集不同,EdAcc基于朋友间的自然对话,更能反映真实语境中的语音特征。此外,数据集提供了每位说话者的详细语言背景档案,如英语使用年限和居住地历史,为分析语音识别模型在不同口音上的性能差异提供了重要依据。
使用方法
EdAcc数据集主要用于评估自动语音识别系统在多样化英语口音上的鲁棒性。研究人员可通过其开发集和测试集,计算词错误率以量化模型性能。数据集支持对特定口音群体的针对性分析,例如比较模型在牙买加或尼日利亚英语上的表现。使用前,需下载音频文件及对应的转录文本,并参考提供的评估脚本进行标准化测试。数据集遵循CC-BY-SA许可,鼓励在语音技术研究中广泛应用,以促进更具包容性的系统开发。
背景与挑战
背景概述
爱丁堡国际英语口音语料库(EdAcc)由爱丁堡大学信息学院的研究团队于2023年发布,旨在应对自动语音识别(ASR)领域长期存在的英语口音多样性表征不足问题。该语料库收录了近40小时的视频通话对话,涵盖超过40种自报英语口音及51种母语背景,首次系统整合了说话者的详细语言背景档案。其核心研究在于推动英语ASR技术向更民主化、包容性的方向发展,通过真实自然的对话数据,揭示现有模型在非标准英语变体上的性能局限,为语音技术的公平性与可及性研究提供了关键数据支撑。
当前挑战
EdAcc所针对的领域挑战在于解决英语自动语音识别中口音偏见与泛化能力不足的问题。现有ASR模型在美式或英式英语上表现优异,但在印度、牙买加、尼日利亚等英语变体上错误率显著上升,暴露了技术对全球英语多样性适应性的缺失。构建过程中的挑战包括:采集自然对话时需平衡语音质量与生态效度,通过视频通话软件实现全球范围数据收集;准确标注多样且流动的口音身份,避免简化复杂的语言社会认同;以及确保数据伦理合规性,在开放共享许可下保护说话者隐私与知情同意。
常用场景
经典使用场景
在语音识别领域,EdAcc数据集被广泛应用于评估和提升自动语音识别系统对多样化英语口音的泛化能力。该数据集通过收集来自全球近40种自报口音的英语对话,涵盖了第一语言和第二语言使用者的自然交流场景,为研究者提供了一个真实且具有挑战性的测试平台。其经典使用场景包括在学术实验中对比不同ASR模型在多种英语变体上的性能差异,从而揭示现有系统在口音多样性方面的局限性。
解决学术问题
EdAcc数据集主要解决了自动语音识别研究中口音偏见和泛化不足的学术问题。传统ASR系统通常在美式或英式英语上表现优异,但在印度、牙买加或尼日利亚等英语变体上错误率显著上升,这暴露了模型训练数据缺乏代表性的缺陷。该数据集通过提供详细的语言背景信息和多样化的口音样本,使研究者能够量化并分析这些性能差距,推动开发更具包容性和鲁棒性的语音技术,促进语言技术的民主化进程。
衍生相关工作
EdAcc数据集衍生了一系列关注口音多样性和ASR偏见的研究工作。例如,基于该数据集的实验揭示了Whisper和Wav2vec2.0等先进模型在特定英语变体上的性能下降,激发了针对口音鲁棒性的模型改进研究。此外,该数据集还促进了口音分类和聚类方法的发展,以及如何平衡数据集以涵盖更广泛语言背景的探索,为后续构建更公平的语音识别系统提供了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作