SASRBench-v1

Hugging Face2025-03-21 更新2025-03-22 收录

下载链接：

https://huggingface.co/datasets/mjwong/SASRBench-v1

下载链接

链接失效反馈

官方服务：

资源简介：

SASRBench-v1是一个用于评估自动语音识别（ASR）在Singlish（新加坡英语）性能的基准数据集。它完全来源于IMDA的NSC语料库中第三部分相同房间环境下近讲麦克风录音。数据集通过特定的标准提取音频片段，并为每个选定的音频片段配对其相应的转录文本。

SASRBench-v1 is a benchmark dataset for evaluating the performance of automatic speech recognition (ASR) on Singlish (Singaporean English). It is entirely derived from close-talking microphone recordings in the same-room environment from the third section of the IMDA NSC corpus. The dataset extracts audio clips following specific criteria, and pairs each selected audio clip with its corresponding transcription text.

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

SASRBench-v1数据集源自IMDA国家语音语料库（NSC）的第三部分同房间环境近讲麦克风录音。通过设定最小词数10词、最大时长20秒的筛选标准，从中提取音频片段，并将其采样率统一降至16kHz。随后，从这些片段中随机选取子集，形成SASRBench-v1数据集，每个音频片段均与其对应的转录文本配对。

使用方法

使用SASRBench-v1数据集时，可通过Hugging Face的`datasets`库加载测试集。用户只需调用`load_dataset`函数，指定数据集名称`mjwong/SASRBench-v1`并选择`test`分割，即可快速加载数据。加载后的数据可直接用于模型训练或性能评估，为Singlish语音识别研究提供便捷的实验基础。

背景与挑战

背景概述

SASRBench-v1数据集是专为评估自动语音识别（ASR）系统在新加坡英语（Singlish）上的表现而设计的基准数据集。该数据集由新加坡资讯通信媒体发展局（IMDA）的国家语音语料库（NSC）中的第三部分同房间环境近讲麦克风录音衍生而来。NSC语料库包含了约1000小时的对话数据，记录了约1000名本地英语使用者的日常对话和游戏互动。SASRBench-v1从中提取了满足特定条件的音频片段，包括最小词数10个、最大时长20秒，并将所有音频片段下采样至16kHz。这一数据集的创建旨在推动对Singlish这一独特语言变体的ASR研究，填补了该领域的研究空白。

当前挑战

SASRBench-v1数据集在解决新加坡英语自动语音识别问题时面临多重挑战。首先，Singlish作为一种混合语言，融合了英语、马来语、汉语方言等多种语言元素，其语音特征和语法结构与标准英语存在显著差异，这对ASR系统的泛化能力提出了更高要求。其次，数据集的构建过程中，音频片段的筛选和转录工作需确保高质量和一致性，尤其是在处理多语言混杂的对话时，转录的准确性成为关键挑战。此外，尽管数据集来源于IMDA的高质量语料库，但其规模相对较小，可能限制了模型的训练效果和泛化能力。这些挑战共同构成了SASRBench-v1在推动Singlish ASR研究中的核心难点。

常用场景

经典使用场景

SASRBench-v1数据集主要用于评估自动语音识别（ASR）系统在处理新加坡英语（Singlish）时的性能。该数据集通过从IMDA的国家语音语料库中提取的近距离麦克风录音，提供了高质量的音频片段及其对应的转录文本，特别适用于测试ASR系统在非标准英语环境下的表现。

解决学术问题

SASRBench-v1解决了自动语音识别系统在处理非标准英语方言时的挑战。通过提供标准化的测试集，研究人员能够评估和改进ASR系统在识别新加坡英语等方言时的准确性和鲁棒性，从而推动多语言和方言语音识别技术的发展。

实际应用

在实际应用中，SASRBench-v1数据集可用于开发适用于新加坡市场的语音识别产品，如智能助手、语音翻译工具和客户服务系统。这些应用需要准确识别和理解新加坡英语，以提高用户体验和服务质量。

数据集最近研究