ALLSSTAR Corpus Multilingual Dataset

Name: ALLSSTAR Corpus Multilingual Dataset
Creator: 代尔夫特理工大学智能系统系
Published: 2025-05-22 20:50:32
License: 暂无描述

arXiv2025-05-22 更新2025-05-25 收录

下载链接：

https://www.allsstar.org/

下载链接

链接失效反馈

官方服务：

资源简介：

ALLSSTAR多语言语料库是一个开源的数据集，包括英语、土耳其语和韩语等语言的原住民男女阅读文本的样本，记录在高质量PCM 16位格式下。该数据集用于评估语音质量，并探讨了不同语言和性别下PESQ和ViSQOL的性能。该数据集包含2016个降级信号，由14个信噪比水平、3种降级类型、每种语言16个样本和3种语言组成，并与48个参考信号进行比较。该数据集旨在解决语音质量评估中的语言偏见问题，并为语音质量评估提供更准确和多样化的数据集。

The ALLSSTAR multilingual corpus is an open-source dataset comprising samples of reading texts from native male and female speakers across languages including English, Turkish, and Korean, recorded in high-quality PCM 16-bit format. This dataset is designed for speech quality evaluation, and investigates the performance of PESQ and ViSQOL across different languages and genders. It contains 2016 degraded speech signals, which are generated based on 14 signal-to-noise ratio (SNR) levels, 3 types of degradation, 16 samples per language across 3 total languages, and is paired with 48 reference signals for comparison. This corpus aims to mitigate the problem of language bias in speech quality assessment, and provides a more accurate and diverse benchmark dataset for speech quality evaluation.

提供机构：

代尔夫特理工大学智能系统系

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

ALLSSTAR Corpus Multilingual Dataset的构建采用了多语言平行语料采集策略，通过标准化录音流程收集了包括英语、土耳其语和韩语在内的多种语言数据。所有语音样本均在相同声学环境下由18-29岁的母语者录制，采用PCM 16-bit高保真格式（采样率22.05kHz），并通过严格的质量控制确保原始语音的纯净度。数据集的平衡性体现在每个语言包含16段连续语音（8男8女），样本时长5-10秒且经过静音修剪，最终形成包含48个参考信号和2016个退化信号的多维度语料库。

使用方法

研究者可通过该数据集开展三阶段实验：首先利用原始纯净语音作为参考信号，继而应用预设的噪声混合与编解码流程生成退化信号，最后调用PESQ/ViSQOL等工具进行质量评分。特别建议关注不同信噪比区间（-25dB至40dB）下各语言的指标响应差异，以及性别维度上土耳其男性说话人特有的评分一致性特征（PESQ-ViSQOL相关系数较其他群体高37.9%）。数据集配套的标准化处理脚本可确保退化过程的可重复性，适用于跨语言语音质量评估、客观指标偏差分析等研究方向。

背景与挑战

背景概述

ALLSSTAR Corpus Multilingual Dataset是由西北大学语音通信研究小组创建的语音数据集，旨在支持多语言语音质量评估研究。该数据集包含英语、土耳其语和韩语等多种语言的语音样本，由男女母语者在相同条件下录制，采用高保真PCM 16位格式，采样率为22.05 kHz。数据集的创建背景源于对语音质量评估指标（如PESQ和ViSQOL）在多语言环境下性能的质疑，尤其是在非验证语言（如土耳其语和韩语）中的表现。这一数据集为研究语音质量评估中的语言偏差提供了重要资源，推动了语音通信技术的全球化发展。

当前挑战

ALLSSTAR Corpus Multilingual Dataset面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，语音质量评估指标（如PESQ和ViSQOL）最初仅针对有限语言（如英语）进行验证，导致其在其他语言（如土耳其语和韩语）中的性能不确定，可能引入评估偏差。在构建过程中，数据集的挑战包括确保多语言样本的录制条件一致、避免性别和年龄偏差（如样本年龄范围较窄），以及模拟真实环境中的多样化语音退化类型（如噪声和带宽限制）。此外，缺乏主观平均意见分数（MOS）标注也限制了数据集的验证能力。

常用场景

经典使用场景

ALLSSTAR Corpus Multilingual Dataset作为多语言语音质量评估的基准数据集，广泛应用于语音通信系统的性能测试。该数据集通过标准化录音条件和多语言样本，为研究者提供了评估语音质量指标（如PESQ和ViSQOL）跨语言一致性的关键工具。尤其在土耳其语和韩语等非验证集语言的语音质量预测研究中，该数据集揭示了客观指标存在的潜在偏差，成为探索语音质量评估普适性的重要实验平台。

解决学术问题

该数据集有效解决了语音质量评估领域的关键学术问题：首先验证了客观指标在非开发语言（如土耳其语）中存在的评分偏差，如ViSQOL对土耳其语样本的系统性高估；其次揭示了噪声类型（如babble noise）对指标性能的差异化影响；最后通过性别分层分析发现土耳其男性说话人的指标一致性显著高于其他群体，为语音质量评估模型的跨语言泛化能力研究提供了实证基础。

实际应用

在视频会议系统优化领域，该数据集指导企业针对不同语言调整语音编解码策略；电信运营商利用其发现的噪声敏感性差异，优化韩语等语言的降噪算法；语音识别系统开发者通过分析性别相关偏差，改进针对特定用户群体的语音接口设计。此外，该数据集支持的多语言比较框架已被ISO等标准组织纳入新一代语音质量评估标准的制定流程。

数据集最近研究