ndc-aligned

github2022-11-26 更新2024-05-31 收录

下载链接：

https://github.com/Helsinki-NLP/ndc-aligned

下载链接

链接失效反馈

官方服务：

资源简介：

词对齐版本的挪威方言语料库，提供了语音和正字转录，但存在转录层对齐不良的问题。数据以垂直格式和轻量级XML结构提供，每个话语嵌入在标签中，包含运行ID号和说话者标识。每个令牌一行，先显示语音转录，后显示正字转录。

A word-aligned version of the Norwegian dialect corpus, providing phonetic and orthographic transcriptions, but with issues of misalignment in the transcription layers. The data is presented in a vertical format and a lightweight XML structure, with each utterance embedded within tags, containing a run ID and speaker identifier. Each token is displayed on a single line, first showing the phonetic transcription followed by the orthographic transcription.

创建时间：

2022-11-14

原始信息汇总

数据集概述

数据集名称

ndc-aligned

数据集描述

该数据集包含挪威方言的音位和正写转录数据。转录数据可通过以下链接获取：http://www.tekstlab.uio.no/scandiasyn/download.html。

数据集结构

文件格式：数据以垂直格式提供，包含轻量级XML结构。
内容组织：每个话语嵌入在标签内，包含连续的ID号和说话者标识。
转录方式：每个词条单独一行，首先列出音位转录，随后是正写转录。

数据集问题

音位和正写转录层未完全对齐。
- 话语数量不一致。
- 正写转录包含引号，而音位转录不包含。
- 部分文件中，最后1-2个话语的正写转录缺失。

数据集处理

对齐方法：简单地将一个音位词条与一个正写词条对齐，跳过引号。
异常处理：若音位文件长于正写文件，最后的音位词条与空白的正写字符串关联，并标记为missing_norm="yes"。
质量控制：提供额外的检查程序以确保对齐的正确性。

数据集位置

对齐后的数据位于aligned文件夹中。

搜集汇总

数据集介绍

构建方式

ndc-aligned数据集的构建基于挪威方言语料库的语音和正字法转录对齐。原始数据中，语音和正字法转录层并未完全对齐，存在话语数量不一致、正字法转录包含引号而语音转录不包含等问题。通过脚本处理，数据集将每个语音标记与对应的正字法标记对齐，并跳过引号。若语音文件较长，多余的语音标记将与空的正字法字符串关联，并在XML结构中标记为`missing_norm="yes"`。最终对齐数据以轻量级XML格式存储，每个话语嵌入``标签中，包含唯一ID和说话者标识。

特点

ndc-aligned数据集的特点在于其对齐的语音和正字法转录数据，为挪威方言研究提供了高质量的语言资源。数据集采用垂直格式存储，每个标记单独成行，语音转录在前，正字法转录在后，便于分析和处理。此外，数据集通过XML结构标记了话语的ID和说话者信息，增强了数据的可追溯性和结构化程度。对齐过程中还引入了额外的检查机制，确保对齐的准确性，进一步提升了数据的可靠性。

使用方法

ndc-aligned数据集的使用方法较为直观。用户可从`aligned`文件夹中获取对齐后的数据，数据以XML格式存储，便于解析和处理。每个话语通过``标签封装，包含唯一ID和说话者标识，用户可根据这些信息进行特定说话者或话语的分析。语音和正字法转录的标记按行排列，用户可直接提取或对比两者内容。此外，数据集提供了对齐脚本，用户可基于原始语音和正字法转录文件进行自定义对齐处理，满足特定研究需求。

背景与挑战

背景概述

ndc-aligned数据集是一个专注于挪威方言的语音与正字法对齐的语料库，旨在为语言学研究提供高质量的标注数据。该数据集由奥斯陆大学的ScandiaSyn项目团队创建，主要研究人员包括语言学领域的专家。其核心研究问题在于如何有效地对齐语音转录与正字法转录，以支持方言语音学、语音识别及自然语言处理等领域的研究。该数据集的发布为挪威方言研究提供了重要的数据支持，推动了方言语音学与计算语言学的交叉研究。

当前挑战

ndc-aligned数据集在构建过程中面临多重挑战。首先，原始数据中语音转录与正字法转录的句子数量不一致，且正字法转录中包含引号等符号，而语音转录中则缺失这些符号，导致对齐过程复杂化。其次，部分文件的末尾语音转录缺失正字法对应内容，需通过特殊标记处理。此外，对齐算法需确保每个语音标记与正字法标记一一对应，同时跳过无关符号，这对数据处理脚本的精确性提出了较高要求。这些挑战不仅影响了数据集的构建效率，也对后续研究的准确性提出了更高的标准。

常用场景

经典使用场景

在方言学和语音学研究中，ndc-aligned数据集为研究者提供了一个宝贵的资源，用于分析挪威方言的语音和正字法之间的对应关系。通过该数据集，研究者可以深入探讨方言发音与书面表达之间的差异，进而揭示语言变体的复杂性。

衍生相关工作

基于ndc-aligned数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了挪威方言的语音识别模型，并进一步探索了方言与标准语之间的转换规则。此外，该数据集还促进了跨语言语音对齐技术的发展，为多语言语音处理提供了新的思路。

数据集最近研究