North East Scotland Advice Charity (NESAC), South East Scotland Housing Association (SESHA)

Name: North East Scotland Advice Charity (NESAC), South East Scotland Housing Association (SESHA)
Creator: 巴斯大学计算机科学系, Wyser LTD
Published: 2025-01-15 08:39:21
License: 暂无描述

arXiv2025-01-15 更新2025-01-17 收录

下载链接：

http://arxiv.org/abs/2501.08502v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由巴斯大学计算机科学系和Wyser LTD合作创建，旨在评估自动语音识别（ASR）模型在英国地区口音差异中的表现。数据集包含来自苏格兰东北部和东南部的公共服务电话录音，分别由NESAC和SESHA两个组织提供。数据集内容涉及法律咨询、住房支持等公共服务领域，数据量约为93小时（NESAC 47小时，SESHA 46小时），数据来源为真实世界的电话录音。数据集通过手动标注口音标签和转录，用于训练和测试ASR模型。该数据集的应用领域为公共服务，旨在解决ASR模型在地区口音识别中的偏差问题，提升对弱势群体的服务质量。

This dataset was developed in collaboration between the Department of Computer Science, University of Bath, and Wyser LTD, with the goal of evaluating the performance of automatic speech recognition (ASR) models across regional accent variations in the United Kingdom. It comprises real-world public service telephone recordings sourced from Northeast and Southeast Scotland, provided by two respective organizations: NESAC and SESHA. The dataset covers public service scenarios including legal consultation and housing support, with a total duration of approximately 93 hours (47 hours from NESAC and 46 hours from SESHA). All recordings have been manually annotated with accent labels and transcriptions for training and testing ASR models. Targeted at the public service domain, this dataset aims to mitigate the bias of ASR models in regional accent recognition and improve service quality for vulnerable populations.

提供机构：

巴斯大学计算机科学系, Wyser LTD

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

该数据集的构建基于英国公共服务领域的实际需求，旨在评估自动语音识别（ASR）模型在捕捉英国地区口音差异方面的能力。研究团队从苏格兰东北部（NESAC）和东南部（SESHA）两个公共服务机构收集了真实通话数据，涵盖了法律咨询、住房支持等关键服务领域。所有数据均经过人工标注和转录，确保其准确性和可靠性。此外，研究还使用了英国口音的多说话者语料库作为基线数据集，以对比模型在不同口音和领域下的表现。

特点

该数据集的特点在于其专注于英国苏格兰地区的两种独特口音，涵盖了公共服务领域的真实通话场景。数据集中包含了大量来自低收入群体的通话记录，反映了实际服务中的语言多样性。此外，数据集的标注不仅包括语音转录，还标注了说话者的口音和性别信息，为研究口音对ASR模型性能的影响提供了丰富的信息。数据集的高质量和多样性使其成为评估和改进ASR模型在真实场景中表现的理想选择。

使用方法

该数据集主要用于评估和改进自动语音识别模型在捕捉地区口音差异方面的性能。研究人员首先使用基线数据集和NESAC、SESHA数据集对Whisper模型进行测试，随后通过微调模型来提升其在特定口音上的表现。微调后的模型在相同领域的测试数据上表现显著提升，且显示出一定的跨区域迁移能力。此外，研究还通过人工分析模型错误，探讨了词错误率（WER）作为评估指标的局限性，并提出了改进转录风格差异对模型性能影响的优化方法。

背景与挑战

背景概述

North East Scotland Advice Charity (NESAC) 和 South East Scotland Housing Association (SESHA) 数据集由英国巴斯大学计算机科学系的研究人员与Wyser LTD合作创建，旨在评估自动语音识别（ASR）模型在英国苏格兰地区方言中的表现。该数据集于2025年发布，主要研究问题集中在ASR模型在处理区域口音时的偏差问题，尤其是对弱势群体的公共服务领域的影响。通过收集来自苏格兰东北和东南地区的真实公共服务电话录音，研究人员探讨了Whisper模型在这些方言上的表现，并尝试通过微调模型来提升其识别能力。该研究为ASR模型在公共服务中的应用提供了重要的实证数据，推动了语音识别技术在多样化语言环境中的公平性和包容性发展。

当前挑战

NESAC和SESHA数据集面临的挑战主要体现在两个方面。首先，ASR模型在处理区域方言时表现出较高的词错误率（WER），尤其是在苏格兰东北和东南地区的口音上，模型的表现显著低于标准数据集。这表明现有ASR模型在捕捉方言差异方面存在局限性，可能导致公共服务中的沟通障碍。其次，数据集的构建过程中面临隐私和伦理问题，由于涉及敏感的个人信息，研究人员必须严格遵守数据保护法规，确保数据的匿名化和安全存储。此外，数据的手动标注和转录过程耗时且复杂，尤其是在处理方言和口音时，转录的准确性直接影响到模型的训练效果。这些挑战凸显了在多样化语言环境中开发公平且高效的ASR系统的复杂性。

常用场景

经典使用场景

该数据集主要用于评估自动语音识别（ASR）模型在处理英国苏格兰地区不同口音时的表现，特别是在公共服务领域的应用。通过收集来自苏格兰东北部和东南部的真实公共服务电话录音，研究人员能够测试和优化ASR模型在这些特定口音下的识别能力。这一数据集的使用场景主要集中在公共服务领域，如法律咨询和住房支持，确保语音识别系统能够准确转录带有地方口音的对话，从而提升服务的效率和准确性。

衍生相关工作

该数据集的研究工作衍生了一系列与方言识别和语音识别优化相关的经典研究。例如，基于该数据集的研究成果，后续工作进一步探索了如何通过微调预训练模型（如Whisper）来提升其在多方言环境下的表现。此外，该数据集还启发了其他研究团队开发针对不同地区口音的语音识别系统，特别是在公共服务领域的应用。这些衍生工作不仅扩展了ASR技术在多方言环境下的应用范围，还为语音识别系统的公平性和包容性研究提供了新的思路。

数据集最近研究