Swiss Parliaments Corpus Re-Imagined (SPC_R)

Name: Swiss Parliaments Corpus Re-Imagined (SPC_R)
Creator: 瑞士西北应用科学与艺术大学
Published: 2025-06-09 21:11:18
License: 暂无描述

arXiv2025-06-09 更新2025-06-11 收录

下载链接：

https://huggingface.co/i4ds/spc_r

下载链接

链接失效反馈

官方服务：

资源简介：

瑞士议会语料库的重构版（SPC_R）是一个增强型转录数据集，将整个多小时的瑞士德语辩论会议转录成高质量的语音-文本对。数据集包含801小时的音频，其中751小时通过了质量控制。SPC_R语料库的创建过程包括使用Whisper Large-v3进行转录，然后使用GPT-4o进行两步校正，并通过预测BLEU分数进行筛选。该数据集适用于瑞士德语自然语言处理应用，旨在解决低资源领域自动语音识别系统开发的数据稀缺问题。

The Reconstructed Swiss Parliament Corpus (SPC_R) is an enhanced transcription dataset that converts full multi-hour Swiss German parliamentary debate sessions into high-quality speech-text pairs. The dataset contains 801 hours of audio, out of which 751 hours have passed quality control. The development pipeline of the SPC_R corpus includes initial transcription using Whisper Large-v3, followed by two-step correction with GPT-4o, and filtering based on predicted BLEU scores. This dataset is tailored for Swiss German natural language processing applications, aiming to address the data scarcity issue in the development of low-resource automatic speech recognition systems.

提供机构：

瑞士西北应用科学与艺术大学

创建时间：

2025-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: spc_r
许可证: CC-BY-4.0
下载大小: 455,329,484 字节
数据集大小: 457,199,666 字节

数据特征

音频:
- 采样率: 16,000 Hz
文本:
- 数据类型: 字符串
语言:
- 数据类型: 字符串
字幕 (srt):
- 数据类型: 字符串

数据划分

训练集 (train):
- 样本数量: 886
- 数据大小: 457,199,666 字节

配置文件

默认配置 (default):
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在构建Swiss Parliaments Corpus Re-Imagined (SPC_R)数据集时，研究团队首先利用Whisper Large-v3模型在高性能计算环境下对801小时的瑞士德语议会辩论音频进行初步转录，生成标准德语文本。随后，采用基于GPT-4o的两阶段修正流程：第一阶段通过检索增强生成（RAG）技术结合官方会议记录修正命名实体等错误；第二阶段由独立的GPT-4o模型评估修正后的语义完整性。最后，通过预测BLEU分数（源自Whisper的平均标记对数概率）和GPT-4o评估分数设置阈值，筛选出751小时的高质量语音-文本对。

使用方法

该数据集主要服务于瑞士德语自动语音识别系统的研发与优化。使用者可通过Hugging Face平台获取CC BY 4.0许可下的完整语料，建议按原始论文划分的701小时训练集和50小时测试集进行模型开发。对于ASR模型训练，推荐优先采用预测BLEU分数高于65的样本；在评估阶段，可结合传统WER指标与人工检查命名实体准确率进行综合测评。数据集配套的GitHub代码库提供了完整的处理流程，包括RAG实现细节和GPT-4o提示模板，便于研究者复现或改进数据处理管道。

背景与挑战

背景概述

Swiss Parliaments Corpus Re-Imagined (SPC_R) 是由瑞士西北应用科学与艺术大学的研究团队于2025年推出的高质量语音-文本配对数据集，旨在解决瑞士德语自动语音识别（ASR）领域的数据稀缺问题。该数据集基于瑞士伯尔尼州议会的801小时辩论录音，通过Whisper Large-v3模型进行转录，并利用GPT-4o进行两步校正，最终生成751小时的高质量标准德语文本。SPC_R不仅显著提升了转录质量（BLEU分数提高6分），还为低资源领域语音识别研究提供了重要支持。

当前挑战

SPC_R数据集面临的主要挑战包括：1) 领域问题的挑战：瑞士德语作为一种低资源语言，其方言多样性和与标准德语的差异增加了语音识别的难度，尤其是在命名实体和专有名词的转录上；2) 构建过程的挑战：原始音频与官方协议之间的对齐问题、长格式音频的连贯性处理，以及如何有效利用Whisper和GPT-4o等模型进行高质量转录与校正，均是构建过程中的技术难点。此外，数据隐私和商业使用限制也增加了数据获取与应用的复杂性。

常用场景

经典使用场景

在瑞士德语自动语音识别（ASR）系统的开发中，SPC_R数据集通过其高质量的长格式语音-文本对，为研究人员提供了丰富的训练和测试资源。该数据集特别适用于处理瑞士德语与标准德语之间的语言转换问题，尤其是在议会辩论等正式场合下的语音识别任务。通过结合Whisper Large-v3和GPT-4o的先进技术，SPC_R显著提升了转录的准确性和语义完整性，使其成为低资源语言处理领域的标杆数据集。

解决学术问题

SPC_R数据集有效解决了瑞士德语ASR系统中的数据稀缺问题，尤其是在长格式语音转录和命名实体识别方面的挑战。通过引入基于RAG的校正和预测BLEU评分机制，该数据集不仅提升了转录质量，还为低资源语言处理提供了可复用的方法论。其意义在于为瑞士德语及其他低资源语言的ASR研究提供了高质量的数据支持，推动了多语言语音识别技术的发展。

实际应用

SPC_R数据集的实际应用场景包括议会辩论的实时转录、多语言语音助手开发以及法律和政府文档的自动化处理。其高质量的语音-文本对可用于训练商业ASR系统，提升其在瑞士德语环境下的表现。此外，该数据集还为跨语言信息检索和语音翻译系统提供了可靠的数据基础，具有广泛的社会和经济价值。

数据集最近研究