NbAiLab/NPSC

Name: NbAiLab/NPSC
Creator: NbAiLab
Published: 2024-08-14 13:57:39
License: 暂无描述

Hugging Face2024-08-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NbAiLab/NPSC

下载链接

链接失效反馈

官方服务：

资源简介：

挪威议会语音语料库（NPSC）是由挪威国家图书馆的挪威语言银行在2019-2021年间创建的语音语料库。该语料库包含挪威议会会议的录音和对应的挪威书面转录，转录工作由训练有素的语言学家完成，并经过校对以确保准确性和一致性。数据集适用于自动语音识别和音频分类任务。

The Norwegian Parliament Speech Corpus (NPSC) is a speech corpus created by the Norwegian Language Bank of the National Library of Norway between 2019 and 2021. This corpus contains audio recordings of Norwegian parliamentary sessions and their corresponding Norwegian written transcripts, which were completed by trained linguists and proofread to ensure accuracy and consistency. This dataset is applicable to automatic speech recognition and audio classification tasks.

提供机构：

NbAiLab

原始信息汇总

数据集概述

数据集名称

名称: NPSC (Norwegian Parliamentary Speech Corpus)

语言信息

语言:
- 主要语言: nb (Norwegian Bokmål), nn (Norwegian Nynorsk)
- 辅助语言: no, en-US

许可证

许可证: CC0-1.0

数据集大小

大小: 2G<n<1B

数据来源

来源: 原始数据

任务类别

任务类别:
- automatic-speech-recognition
- audio-classification

数据集标签

标签: speech-modeling

数据集描述

描述: NPSC是由挪威语言银行在2019-2021年间创建的语音语料库，包含挪威议会的演讲录音及其对应的挪威语Bokmål和Nynorsk的正字法转录。所有转录由训练有素的语言学家或语文学家手动完成，并经过校对以确保一致性和准确性。

数据字段

数据字段:
- sentence_id: 句子唯一标识符
- sentence_order: 句子在会议中的顺序
- speaker_id: 发言人ID
- meeting_date: 会议日期
- speaker_name: 发言人姓名
- sentence_text: 句子文本
- sentence_language_code: 句子语言代码
- text: 句子文本副本
- start_time: 句子开始时间
- end_time: 句子结束时间
- normsentence_text: 规范化句子文本
- transsentence_text: 翻译后的句子文本
- translated: 翻译标识
- audio: 音频数据

数据集统计

统计信息:
- 总时长（含停顿）: 140.3小时
- 总时长（不含停顿）: 125.7小时
- 单词计数: 120万
- 句子计数: 64,531
- 语言分布: Nynorsk 12.8%, Bokmål 87.2%
- 性别分布: 女性38.3%, 男性61.7%

许可证信息

音频和转录: CC0-1.0
HuggingFace数据集整理: CC-BY-SA-3.0

引用信息

引用:

@inproceedings{solberg2022norwegian, title={The Norwegian Parliamentary Speech Corpus}, author={Solberg, Per Erik and Ortiz, Pablo}, booktitle={Proceedings of the 13th Language Resources and Evaluation Conference}, url={http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.106.pdf}, year={2022} }

搜集汇总

数据集介绍

构建方式

在语音识别与音频分类的研究领域，挪威议会语音语料库（NPSC）的构建体现了严谨的学术规范。该数据集由挪威国家图书馆下属的挪威语言银行于2019年至2021年间精心编制，源数据全部来自挪威议会（Stortinget）的公开会议录音。构建过程中，所有语音均经由训练有素的语言学家或文献学家进行人工转写，确保了转录文本的准确性；转写内容进一步经过校对，以维持整体一致性。语料库完整覆盖了议会全天的会议内容，并提供了对应的书面挪威语（Bokmål）与新挪威语（Nynorsk）的正字法转录文本，为挪威语语音研究奠定了高质量的数据基础。

使用方法

研究人员可通过Hugging Face平台便捷地访问与使用NPSC数据集。利用`datasets`库的`load_dataset`函数，指定数据集名称`NbAiLab/NPSC`及相应配置（如`16K_mp3_bokmaal`），即可加载数据。支持流式读取模式，有助于高效处理大规模音频文件。加载后的数据结构为JSON行格式，每条记录不仅包含详尽的文本与元数据字段，还通过`audio`字段集成了对应的音频数组、路径及采样率，方便直接用于自动语音识别或音频分类模型的训练与评估。用户需注意，此版本为简化格式，更完整的词级元数据及说话人详细信息需参考挪威语言银行发布的官方版本。

背景与挑战

背景概述

挪威议会语音语料库（NPSC）由挪威国家图书馆下属的挪威语言银行于2019年至2021年间构建，旨在为挪威语的自动语音识别和音频分类研究提供高质量资源。该语料库收录了挪威议会（Stortinget）的会议录音，并辅以挪威书面语（Bokmål）和新挪威语（Nynorsk）的人工转录文本，所有转录工作均由训练有素的语言学家或语文学家完成，并经过严格校对以确保一致性与准确性。NPSC的发布显著推动了北欧语言在语音技术领域的发展，为研究者提供了涵盖政治话语的丰富语音数据，促进了多方言环境下的语音模型训练与评估。

当前挑战

NPSC数据集致力于解决挪威语自动语音识别中的核心挑战，包括应对挪威语内部方言变体（如Bokmål与Nynorsk）的语音差异，以及处理政治演讲中常见的复杂句法结构和专业术语。在构建过程中，面临的主要挑战涉及大规模人工转录的精度控制与一致性维护，需协调多位语言学专家对连续会议录音进行逐句标注，同时确保跨说话者与跨时段数据的标准化。此外，语料库需平衡性别与语言变体的代表性，以反映真实议会讨论的多样性，这要求细致的元数据设计与质量控制流程。

常用场景

经典使用场景

在语音技术领域，挪威议会语音语料库（NPSC）为自动语音识别系统的训练与评估提供了关键资源。该数据集收录了挪威议会的真实会议录音，并辅以专业语言学家手动转录的文本，涵盖了挪威语的两大书面变体——博克马尔语和新挪威语。研究者常利用其高精度对齐的音频与文本数据，开发针对挪威语的端到端语音识别模型，尤其在处理正式演讲风格和复杂政治术语方面展现出独特价值。

解决学术问题

该数据集有效解决了低资源语言语音技术研究中的数据稀缺问题。通过提供大规模、高质量的双语种语音文本对，NPSC支持跨方言语音建模、口音适应以及多语言语音识别系统的对比研究。其精细的说话人元数据与性别平衡设计，为语音合成中的声学模型偏差分析、议会场景下的对话行为识别等前沿课题提供了实证基础，推动了计算语言学在特定领域语料分析中的方法论创新。

实际应用

在实际应用层面，NPSC为挪威公共部门的智能语音服务提供了核心训练素材。基于该数据集开发的语音识别引擎，已应用于议会会议实时字幕生成、政府档案自动转录、以及面向听障人士的无障碍通信系统。此外，其标准化的语音接口可集成至教育科技平台，辅助语言学习者掌握挪威语正式发音，同时为媒体机构自动化新闻摘要生产提供音视频内容的结构化处理能力。

数据集最近研究