Saar-Voice

Name: Saar-Voice
Creator: 萨尔兰大学·语言科学与技术系
Published: 2026-04-14 01:59:11
License: 暂无描述

arXiv2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/UdS-LSV/Saar-Voice

下载链接

链接失效反馈

官方服务：

资源简介：

Saar-Voice是由萨尔兰大学团队构建的德国萨尔布吕肯方言多说话人语音语料库，包含9名说话人录制的6小时方言语音数据。数据集通过数字化印刷书籍（66.6%）、本地社区文本（32.4%）及MASSIVE数据集本地化翻译（1%）三重来源构建，涵盖诗歌、散文、民间故事等文体，共8,772个句子75,280词。该语料库采用专业录音设备在隔音室采集，包含对齐的文本-音频表征，旨在解决德语方言文本转语音（TTS）任务中低资源方言数据缺失问题，为零样本和少样本模型适配提供研究基础。

Saar-Voice is a multi-speaker Saarbrücken German dialect speech corpus constructed by the team from Saarland University. It contains 6 hours of dialect speech data recorded by 9 speakers. The corpus is built from three sources: digitized printed books (66.6%), local community texts (32.4%), and localized translations from the MASSIVE dataset (1%). It covers various genres including poetry, prose, and folk tales, with a total of 8,772 sentences and 75,280 words. The corpus was collected in a soundproof room using professional recording equipment and includes aligned text-audio representations. It aims to address the shortage of low-resource dialect data for German dialect text-to-speech (TTS) tasks, providing a research foundation for zero-shot and few-shot model adaptation.

提供机构：

萨尔兰大学·语言科学与技术系

创建时间：

2026-04-14

搜集汇总

数据集介绍

构建方式

在方言语音资源匮乏的背景下，Saar-Voice语料库的构建采用了多源文本采集与专业录音相结合的方法。研究团队首先通过数字化印刷书籍和本地社区提供的材料收集文本，涵盖了诗歌、散文和民间故事等多种文体。这些文本经过光学字符识别处理和母语者人工校对，以解决方言特殊字符的识别难题。随后，九名熟练掌握萨尔布吕肯方言的发言人在专业隔音录音室中，使用高质量定向麦克风以句子为单位进行录制，录音过程注重保持文本的连贯性以支持自然的韵律表现。最终形成了文本与音频严格对齐的六小时多发言人语音数据集。

特点

该数据集的核心特点在于其专注于德语中资源稀缺的萨尔布吕肯方言，填补了该方言在计算语言学资源中的空白。语料库包含九位发言人的语音数据，涵盖了性别与年龄的多样性，确保了发音风格的丰富性。数据质量方面，录音信噪比普遍较高，语音清晰度良好。文本内容不仅体现了方言在正字法、形态句法和词汇层面的独特变异，还包含了诗歌等特定文体，为研究方言的韵律特征提供了素材。此外，数据集提供了对齐的文本与音频表示，并包含初步的音素覆盖分析，为方言感知的语音合成任务奠定了坚实基础。

使用方法

Saar-Voice数据集主要服务于方言感知的语音技术研发，特别是在低资源场景下的文本到语音合成模型训练与评估。研究人员可利用其对齐的文本-音频对，进行多发言人TTS系统的监督训练。鉴于其规模适中，该数据集也非常适合用于探索零样本或少样本的模型适应策略，评估预训练的多语种TTS模型（如XTTS、ZMM-TTS）向密切相关的方言变体泛化的能力。此外，该数据集还可用于方言语音识别系统的初步探索、音系学分析，以及研究方言与标准德语在声学特征上的差异。使用前需遵循数据提供方的许可协议，并注意其文本源于书面语体，在应用于自发口语相关任务时可能存在局限。

背景与挑战

背景概述

在自然语言处理与语音技术快速发展的背景下，针对标准化语言变体的研究已取得显著进展，而方言资源则长期处于匮乏状态。萨尔布吕肯方言作为德国莱茵-法兰克方言的一种，承载着重要的文化价值，却在语言技术领域缺乏系统性的语音数据支持。为填补这一空白，萨尔兰大学语言科学与技术研究所的研究团队于2024年创建了Saar-Voice数据集。该数据集包含约六小时的多说话人语音语料，旨在为低资源方言的文本转语音技术提供基础资源，推动方言感知的语音合成模型研究，特别是在零样本与小样本适应场景中的应用。

当前挑战

Saar-Voice数据集构建面临的核心挑战体现在领域问题与构建过程两个层面。在领域问题方面，该数据集致力于解决方言语音合成中因缺乏标准化拼写而导致的音素转换困难，以及方言与标准德语在音系、词法与句法层面的系统性差异所带来的建模复杂性。构建过程中的挑战则更为具体：首先，方言缺乏统一的正字法规范，导致文本采集时面临拼写变异与OCR识别错误；其次，语料来源以诗歌为主，可能引入非常规的韵律模式，影响语音的自然度；此外，说话人虽均为方言使用者，但其语言使用模式存在个体差异，为模型训练引入了额外的变异因素。

常用场景

经典使用场景

在方言语音技术研究中，Saar-Voice数据集为萨尔布吕肯德语方言的文本到语音合成提供了关键资源。该数据集包含九位发音人的高质量录音与对齐文本，特别适用于低资源场景下的多说话人TTS模型训练与评估。通过捕捉方言特有的音韵、词汇和句法特征，它使得研究者能够构建能够准确生成方言语音的合成系统，从而弥补标准语言模型在方言处理上的性能差距。

衍生相关工作

围绕Saar-Voice数据集，衍生出了一系列针对低资源方言语音处理的研究工作。例如，研究者利用该语料评估了XTTS和ZMM-TTS等多语言预训练模型在方言上的零样本泛化能力。同时，它也为类似Bildts荷兰方言的TTS适应研究提供了方法论参考，促进了跨方言的模型迁移与技术比较，进一步丰富了方言计算语言学的学术图谱。

数据集最近研究