Sprakbanken/nb_samtale
收藏数据集卡片 for Sprakbanken/nb_samtale
数据集描述
数据集概述
NB Samtale 是由挪威国家图书馆的语言银行制作的语音语料库。该语料库包含从播客和挪威国家图书馆现场活动的录音中正字法转录的语音。该语料库旨在作为自动语音识别(ASR)开发的开放源数据集,特别针对提高ASR系统对会话语音的处理能力。
语料库包含12,080个片段,总计24小时的转录语音,来自69位说话人。语料库确保了性别和方言的多样性,并代表了五个广泛的方言区域。语料库中的转录文本既有书面挪威语(Bokmål)也有新挪威语(Nynorsk),其中新挪威语约占转录文本的25%。
支持的任务
- 自动语音识别:用于会话语音的逐字转录以及标准化、正字法转录。
- 说话人分割:所有句子片段都有一个说话人ID,该ID对每个说话人都是唯一的,同一说话人在不同源文件中具有相同的说话人ID。
- 音频分类:每个片段可以根据元数据特征进行分类。
语言
转录文本为挪威语bokmål或挪威语nynorsk。
音频为挪威语,说话人的各自方言。我们将其分为五个方言区域:
| 方言区域(英文) | 方言区域(挪威文) | 郡 |
|---|---|---|
| Eastern Norway | Østlandet | Agder, Innlandet, Oslo, Vestfold og Telemark, Viken |
| Southwest Norway | Sørvestlandet | Rogaland |
| Western Norway | Vestlandet | Møre og Romsdal, Vestland |
| Central Norway | Midt-Norge | Trøndelag |
| Northern Norway | Nord-Norge | Nordland, Troms og Finnmark |
数据集结构
数据实例
一个数据点是一个音频片段,包括一个指向.wav文件的相对路径和转录文本。还提供了有关说话人、转录的正字法标准、片段是否与前后重叠以及录音环境的信息。转录文本还有三种不同的标准化版本:“orthographic”(正字法正确的文本,包含标点符号、整数和标准词形)、“verbatim”(包含标记犹豫、笑声、外来短语和未知词的标记,但没有标点符号)和“annotations”(来自注释过程的“原样”,包含标点符号、标签和替代词形)。
数据字段
| 数据字段 | 描述 | 值类型/示例 |
|---|---|---|
source_file_id |
片段出现的原始文件 | 例如 50f-X, tr-X 或 nb-X,其中 X 是一个数字(字符串) |
segment_id |
片段的开始和结束时间戳 | {starttime}-{endtime}(字符串) |
segment_order |
片段在原始文件中的顺序 | (整数) |
duration |
片段的持续时间(秒) | (浮点数) |
overlap_previous |
片段的开始是否与前一个片段重叠 | True 或 False(布尔值) |
overlap_next |
片段的结束是否与下一个片段重叠 | True 或 False(布尔值) |
speaker_id |
片段中转录的说话人的说话人ID | P0 - P69(字符串) |
gender |
说话人的二元性别(女性或男性),映射到HuggingFace数据集ClassLabel索引号 | 0:f 或 1:m(整数) |
dialect |
说话人的方言区域,作为ClassLabel索引号,表示东部(e)、北部(n)、西南部(sw)、中部(t)、西部(w) | 0:e, 1:n, 2:sw, 3:t, 或 4:w(整数) |
orthography |
转录文本的书写规范,要么是bokmål(bm)要么是nynorsk(nn),作为ClassLabel索引号 |
0:bm 或 1:nn(整数) |
source_type |
原始文件的录音类型,要么是live-event要么是podcast,作为ClassLabel索引号 |
0:live-event 或 1:podcast(整数) |
file_name |
音频片段的文件名,不包含路径 | {source_file_id}_{segment_id}.wav(字符串) |
transcription |
正字法转录文本 | (字符串) |
orthographic |
接近给定orthography标准的正字法正确文本转录。包含标点符号、数字和标准词形。 |
(字符串) |
verbatim |
尽可能接近地映射到所说的词的转录文本。包含标记犹豫、笑声、外来短语和未知词的标记,但没有标点符号。 | (字符串) |
annotations |
来自注释过程的“原样”转录文本。包含错误开始、非语言噪音的元标签、标点符号和替代词形(<uttered word><orthographic standard word>) |
(字符串) |
audio |
音频片段数据,包含相对文件path、字节array和sampling_rate |
(字典) |
数据分割
数据被分为train、validation和test集,根据三个参数进行分层:源类型、性别和方言。性别和方言自然指的是说话人的性别和方言。数据没有根据说话人ID进行分割,以避免在各个集合中说话人重叠,因为这在保持其他参数(特别是方言变化)的良好分布的同时是不可能的。
源类型指的是源材料是两个播客(50f,tr)之一还是挪威国家图书馆的现场活动(nb)。这两种类型具有不同的特征。播客总体上是高质量的工作室录音,背景噪音和回声较少。现场活动是在挪威国家图书馆的房间或接待厅录制的,背景噪音、回声和不一致的音频质量更多。许多还有现场观众。
数据集创建
源数据
音频收集自我们被允许公开分享的播客——即来自UiT的50 forskere和来自Trondheim市的Trondheim kommunes podkast——以及挪威国家图书馆自己的一些现场活动录音。播客是工作室录音,而挪威国家图书馆的活动是在挪威国家图书馆的房间和接待厅举行的,有时是在观众面前。
源语言生产者是谁?
分别是录音活动的嘉宾和主持人,要么是工作室制作的播客,要么是公共现场活动中的讲座、辩论和对话。
注释
注释过程
录音在转录软件ELAN中被分段和转录。录音使用挪威国家图书馆的AI实验室创建的挪威ASR系统自动转录。语音被分段和转录,并进行说话人分割,将说话人分成不同的转录层。然后根据一套准则由转录员手动校正这些片段和转录。所有手动转录都由第二个人审查,以避免转录员之间的重大差异。最后,所有转录都进行了拼写检查,并检查了任何不需要的数字或特殊字符。
个人和敏感信息
数据字段gender、dialect和speaker_id与说话人本身有关。如果一个说话人在几个不同的源文件中出现,他们将具有相同的speaker_id。
使用数据的考虑
偏见讨论
录音大多根据说话人的性别和方言选择,以确保性别平衡和广泛的方言代表性。语料库中男性和女性说话人的比例接近50/50(男性54%,女性46%)。挪威方言被分为五个广泛的方言区域,这些区域都在语料库中得到了代表。然而,东挪威方言的说话时间最多,约占50%,而其他区域则在8%到20%之间。
附加信息
数据集策展人
数据集的内容由挪威国家图书馆的挪威语言银行(Språkbanken)创建。Marie Iversdatter Røsok、Ingerid Løyning Dale和Per Erik Solberg为创建此数据集做出了贡献。感谢HuggingFace团队的协助。
许可信息
NB Samtale数据集以CC-ZERO-license发布,即它是公共领域,可以用于任何目的,无需许可即可重新分享。




