five

Swiss Parliaments Corpus (SPC)

收藏
arXiv2021-06-09 更新2024-06-21 收录
下载链接:
https://www.cs.technik.fhnw.ch/ i4ds-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
Swiss Parliaments Corpus (SPC) 是由西北应用科学与艺术大学数据科学研究所创建的一个自动对齐的瑞士德语语音到标准德语文本的数据集。该数据集基于伯尔尼州议会的公开数据,包含293小时的数据。创建过程中采用了创新的强制句子对齐程序和质量估计器,以平衡数据集的大小和质量。SPC主要用于解决瑞士德语自动语音识别(ASR)的问题,特别是在缺乏公开训练数据的情况下,为瑞士德语ASR模型提供高质量的训练资源。

Swiss Parliaments Corpus (SPC) is an automatically aligned Swiss German speech-to-standard German text dataset created by the Institute of Data Science, Northwest University of Applied Sciences and Arts. This dataset is built upon public data from the Bern State Parliament, with a total duration of 293 hours. During its development, an innovative forced sentence alignment procedure and quality estimator were adopted to strike a balance between the dataset's scale and quality. SPC is primarily designed to address the challenges of Swiss German automatic speech recognition (ASR), particularly providing high-quality training resources for Swiss German ASR models in scenarios where publicly available training data is scarce.
提供机构:
西北应用科学与艺术大学数据科学研究所
创建时间:
2020-10-06
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作