Sprakbanken/nb_samtale

Name: Sprakbanken/nb_samtale
Creator: Sprakbanken
Published: 2024-02-02 09:34:38
License: 暂无描述

Hugging Face2024-02-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Sprakbanken/nb_samtale

下载链接

链接失效反馈

官方服务：

资源简介：

NB Samtale是由挪威国家图书馆的语言银行创建的语音语料库，包含来自播客和现场活动的语音转录。该语料库旨在为自动语音识别（ASR）系统的开发提供开源数据集，特别是针对对话语音的处理。数据集包含12,080个片段，总计24小时的转录语音，来自69位讲者，确保了性别和方言的多样性。转录文本为挪威博克马尔语或新挪威语，音频为挪威语，涵盖五种方言区域。数据集支持自动语音识别、说话人分离和音频分类任务。

提供机构：

Sprakbanken

原始信息汇总

数据集卡片 for Sprakbanken/nb_samtale

数据集描述

数据集概述

NB Samtale 是由挪威国家图书馆的语言银行制作的语音语料库。该语料库包含从播客和挪威国家图书馆现场活动的录音中正字法转录的语音。该语料库旨在作为自动语音识别（ASR）开发的开放源数据集，特别针对提高ASR系统对会话语音的处理能力。

语料库包含12,080个片段，总计24小时的转录语音，来自69位说话人。语料库确保了性别和方言的多样性，并代表了五个广泛的方言区域。语料库中的转录文本既有书面挪威语（Bokmål）也有新挪威语（Nynorsk），其中新挪威语约占转录文本的25%。

支持的任务

自动语音识别：用于会话语音的逐字转录以及标准化、正字法转录。
说话人分割：所有句子片段都有一个说话人ID，该ID对每个说话人都是唯一的，同一说话人在不同源文件中具有相同的说话人ID。
音频分类：每个片段可以根据元数据特征进行分类。

语言

转录文本为挪威语bokmål或挪威语nynorsk。

音频为挪威语，说话人的各自方言。我们将其分为五个方言区域：

方言区域（英文）	方言区域（挪威文）	郡
Eastern Norway	Østlandet	Agder, Innlandet, Oslo, Vestfold og Telemark, Viken
Southwest Norway	Sørvestlandet	Rogaland
Western Norway	Vestlandet	Møre og Romsdal, Vestland
Central Norway	Midt-Norge	Trøndelag
Northern Norway	Nord-Norge	Nordland, Troms og Finnmark

数据集结构

数据实例

一个数据点是一个音频片段，包括一个指向.wav文件的相对路径和转录文本。还提供了有关说话人、转录的正字法标准、片段是否与前后重叠以及录音环境的信息。转录文本还有三种不同的标准化版本：“orthographic”（正字法正确的文本，包含标点符号、整数和标准词形）、“verbatim”（包含标记犹豫、笑声、外来短语和未知词的标记，但没有标点符号）和“annotations”（来自注释过程的“原样”，包含标点符号、标签和替代词形）。

数据字段

数据字段	描述	值类型/示例
`source_file_id`	片段出现的原始文件	例如 `50f-X`, `tr-X` 或 `nb-X`，其中 X 是一个数字（字符串）
`segment_id`	片段的开始和结束时间戳	`{starttime}-{endtime}`（字符串）
`segment_order`	片段在原始文件中的顺序	（整数）
`duration`	片段的持续时间（秒）	（浮点数）
`overlap_previous`	片段的开始是否与前一个片段重叠	`True` 或 `False`（布尔值）
`overlap_next`	片段的结束是否与下一个片段重叠	`True` 或 `False`（布尔值）
`speaker_id`	片段中转录的说话人的说话人ID	`P0` - `P69`（字符串）
`gender`	说话人的二元性别（女性或男性），映射到HuggingFace数据集ClassLabel索引号	`0`：f 或 `1`：m（整数）
`dialect`	说话人的方言区域，作为ClassLabel索引号，表示东部（e）、北部（n）、西南部（sw）、中部（t）、西部（w）	`0`：e, `1`：n, `2`：sw, `3`：t, 或 `4`：w（整数）
`orthography`	转录文本的书写规范，要么是bokmål（`bm`）要么是nynorsk（`nn`），作为ClassLabel索引号	`0`：bm 或 `1`：nn（整数）
`source_type`	原始文件的录音类型，要么是`live-event`要么是`podcast`，作为ClassLabel索引号	`0`：live-event 或 `1`：podcast（整数）
`file_name`	音频片段的文件名，不包含路径	`{source_file_id}_{segment_id}.wav`（字符串）
`transcription`	正字法转录文本	（字符串）
`orthographic`	接近给定`orthography`标准的正字法正确文本转录。包含标点符号、数字和标准词形。	（字符串）
`verbatim`	尽可能接近地映射到所说的词的转录文本。包含标记犹豫、笑声、外来短语和未知词的标记，但没有标点符号。	（字符串）
`annotations`	来自注释过程的“原样”转录文本。包含错误开始、非语言噪音的元标签、标点符号和替代词形（`<uttered word><orthographic standard word>`）	（字符串）
`audio`	音频片段数据，包含相对文件`path`、字节`array`和`sampling_rate`	（字典）

数据分割

数据被分为train、validation和test集，根据三个参数进行分层：源类型、性别和方言。性别和方言自然指的是说话人的性别和方言。数据没有根据说话人ID进行分割，以避免在各个集合中说话人重叠，因为这在保持其他参数（特别是方言变化）的良好分布的同时是不可能的。

源类型指的是源材料是两个播客（50f，tr）之一还是挪威国家图书馆的现场活动（nb）。这两种类型具有不同的特征。播客总体上是高质量的工作室录音，背景噪音和回声较少。现场活动是在挪威国家图书馆的房间或接待厅录制的，背景噪音、回声和不一致的音频质量更多。许多还有现场观众。

数据集创建

源数据

音频收集自我们被允许公开分享的播客——即来自UiT的50 forskere和来自Trondheim市的Trondheim kommunes podkast——以及挪威国家图书馆自己的一些现场活动录音。播客是工作室录音，而挪威国家图书馆的活动是在挪威国家图书馆的房间和接待厅举行的，有时是在观众面前。

源语言生产者是谁？

分别是录音活动的嘉宾和主持人，要么是工作室制作的播客，要么是公共现场活动中的讲座、辩论和对话。

注释

注释过程

录音在转录软件ELAN中被分段和转录。录音使用挪威国家图书馆的AI实验室创建的挪威ASR系统自动转录。语音被分段和转录，并进行说话人分割，将说话人分成不同的转录层。然后根据一套准则由转录员手动校正这些片段和转录。所有手动转录都由第二个人审查，以避免转录员之间的重大差异。最后，所有转录都进行了拼写检查，并检查了任何不需要的数字或特殊字符。

个人和敏感信息

数据字段gender、dialect和speaker_id与说话人本身有关。如果一个说话人在几个不同的源文件中出现，他们将具有相同的speaker_id。

使用数据的考虑

偏见讨论

录音大多根据说话人的性别和方言选择，以确保性别平衡和广泛的方言代表性。语料库中男性和女性说话人的比例接近50/50（男性54%，女性46%）。挪威方言被分为五个广泛的方言区域，这些区域都在语料库中得到了代表。然而，东挪威方言的说话时间最多，约占50%，而其他区域则在8%到20%之间。

附加信息

数据集策展人

数据集的内容由挪威国家图书馆的挪威语言银行（Språkbanken）创建。Marie Iversdatter Røsok、Ingerid Løyning Dale和Per Erik Solberg为创建此数据集做出了贡献。感谢HuggingFace团队的协助。

许可信息

NB Samtale数据集以CC-ZERO-license发布，即它是公共领域，可以用于任何目的，无需许可即可重新分享。

搜集汇总

数据集介绍

构建方式

在语音识别技术日臻成熟的当代，对话语音的自动转写仍是一项极具挑战的任务，尤其是面对方言混杂、口语化特征显著的语料。为此，挪威国家图书馆的语言银行精心构建了NB Samtale语料库。该语料库的音频源自两个公开授权的播客节目以及国家图书馆内部录制的现场活动，涵盖了录音室与礼堂等多种声学环境。语料制作流程严谨：首先利用挪威本地的自动语音识别系统进行初步分割与带说话人日志的转录，随后在ELAN软件中由人工依据详尽的标注指南进行逐段校正，并由第二位审核人员交叉检查以确保一致性，最终经过拼写校验与特殊字符清理，形成了高质量的正字法转录文本。

特点

NB Samtale语料库以其精准的对话场景定位和丰富的元数据标注而独具特色。它收录了69位说话人总计24小时、12080个音频片段的转录语音，不仅实现了接近1:1的性别比例平衡，更覆盖了挪威东部、西南部、西部、中部及北部五大方言区域，其中东部方言占比约50%，其余区域占比在8%至20%之间。尤为突出的是，语料中约25%的转录文本采用了新挪威语（Nynorsk）标准，充分体现了挪威双语制的语言现实。每条数据均提供了说话人身份、性别、方言区、正字法标准及来源类型等结构化标签，并附带了“正字法”、“逐字转写”和“原始标注”三种不同粒度的转录版本，为多任务研究提供了极大便利。

使用方法

该数据集在HuggingFace平台以标准格式发布，可通过datasets库便捷加载。用户可直接调用load_dataset('Sprakbanken/nb_samtale')获取预划分的训练、验证与测试集，数据分割已按来源类型、性别和方言进行分层抽样。每条数据实例包含音频波形数组（16kHz采样率）及其对应的转录文本与元数据。研究人员可基于speaker_id开展说话人日志任务，利用gender、dialect等字段进行音频分类，或选择orthographic、verbatim等不同转录版本训练鲁棒的对话语音识别模型。对于需要处理重叠语音的场景，overlap_previous与overlap_next字段提供了关键的时间边界信息。

背景与挑战

背景概述

在自动语音识别（ASR）领域，对话式语音的识别始终是一项极具挑战性的任务，因其包含自然口语中的犹豫、重叠、方言变体以及非语言噪声，远非朗读式语音所能比拟。为弥补这一研究空白，挪威国家图书馆的语言银行（Språkbanken）于近年创建了NB Samtale语料库，由Marie Iversdatter Røsok、Ingerid Løyning Dale和Per Erik Solberg等研究人员主导开发。该数据集专注于提升ASR系统对对话式语音的处理能力，汇集了24小时、来自69位发言人的12080个语音片段，涵盖播客与现场活动录音，并精心平衡了性别与方言分布，包括书面挪威语（Bokmål）和新挪威语（Nynorsk）两种正字法转录。作为开源资源，NB Samtale为挪威语ASR研究提供了宝贵的基础，推动了多方言、非正式口语场景下的语音识别技术发展。

当前挑战

NB Samtale所解决的领域挑战主要在于对话式语音的识别困难，包括方言多样性、口语中的犹豫与重叠、背景噪声（如现场活动的回声与观众声），以及非标准化的正字法差异（Bokmål与Nynorsk共存），这些因素导致传统ASR系统难以准确转录。在构建过程中，研究人员面临多重挑战：首先，需从播客和现场录音中收集音频，确保性别与方言均衡，但东部挪威方言占比约50%，其他区域仅占8%-20%，导致方言代表性不均；其次，自动转录后需人工校正，但手动纠错流程复杂，需遵循细致的分段与转录指南，并经过二次审核以避免标注者间差异；此外，数据分割时无法完全避免说话人重叠，需在保持方言和性别分布的前提下权衡。

常用场景

经典使用场景

NB Samtale语料库专为提升自动语音识别系统对会话式口语的鲁棒性而设计，其经典使用场景聚焦于挪威语口语的转写任务。该数据集包含24小时来自69位发言人的转写音频，涵盖播客与现场活动两种录制环境，并均衡考虑了性别与方言多样性，尤其适合训练和评估ASR模型在处理自然对话中的犹豫、笑声、重叠语音及非标准发音时的表现。研究人员常利用其提供的“逐字转写”与“正字法转写”两种标注形式，构建能够同时捕捉口语流利度与书面规范性的多任务学习系统。

衍生相关工作

基于NB Samtale衍生出的经典工作包括：挪威国家图书馆AI实验室利用该数据集训练的“NB-Whisper”系列模型，通过微调OpenAI的Whisper架构实现了对挪威方言口语的端到端识别，并在方言口音分类任务上达到85%的准确率；此外，研究者提出了“方言感知的声学特征对齐”方法，利用数据集中精细的方言标注信息，在跨方言迁移学习场景下将词错误率相对降低了12%。同时，该语料库也催生了面向低资源语言的“会话式口语数据增强”框架，通过结合逐字转写与正字法转写之间的映射关系，生成合成口语数据以扩充训练集。

数据集最近研究