ndc-aligned
收藏github2022-11-26 更新2024-05-31 收录
下载链接:
https://github.com/Helsinki-NLP/ndc-aligned
下载链接
链接失效反馈官方服务:
资源简介:
词对齐版本的挪威方言语料库,提供了语音和正字转录,但存在转录层对齐不良的问题。数据以垂直格式和轻量级XML结构提供,每个话语嵌入在<u>标签中,包含运行ID号和说话者标识。每个令牌一行,先显示语音转录,后显示正字转录。
A word-aligned version of the Norwegian dialect corpus, providing phonetic and orthographic transcriptions, but with issues of misalignment in the transcription layers. The data is presented in a vertical format and a lightweight XML structure, with each utterance embedded within <u> tags, containing a run ID and speaker identifier. Each token is displayed on a single line, first showing the phonetic transcription followed by the orthographic transcription.
创建时间:
2022-11-14
原始信息汇总
数据集概述
数据集名称
ndc-aligned
数据集描述
该数据集包含挪威方言的音位和正写转录数据。转录数据可通过以下链接获取:http://www.tekstlab.uio.no/scandiasyn/download.html。
数据集结构
- 文件格式:数据以垂直格式提供,包含轻量级XML结构。
- 内容组织:每个话语嵌入在
<u>标签内,包含连续的ID号和说话者标识。 - 转录方式:每个词条单独一行,首先列出音位转录,随后是正写转录。
数据集问题
- 音位和正写转录层未完全对齐。
- 话语数量不一致。
- 正写转录包含引号,而音位转录不包含。
- 部分文件中,最后1-2个话语的正写转录缺失。
数据集处理
- 对齐方法:简单地将一个音位词条与一个正写词条对齐,跳过引号。
- 异常处理:若音位文件长于正写文件,最后的音位词条与空白的正写字符串关联,并标记为
missing_norm="yes"。 - 质量控制:提供额外的检查程序以确保对齐的正确性。
数据集位置
对齐后的数据位于aligned文件夹中。
搜集汇总
数据集介绍

构建方式
ndc-aligned数据集的构建基于挪威方言语料库的语音和正字法转录对齐。原始数据中,语音和正字法转录层并未完全对齐,存在话语数量不一致、正字法转录包含引号而语音转录不包含等问题。通过脚本处理,数据集将每个语音标记与对应的正字法标记对齐,并跳过引号。若语音文件较长,多余的语音标记将与空的正字法字符串关联,并在XML结构中标记为`missing_norm="yes"`。最终对齐数据以轻量级XML格式存储,每个话语嵌入`<u>`标签中,包含唯一ID和说话者标识。
特点
ndc-aligned数据集的特点在于其对齐的语音和正字法转录数据,为挪威方言研究提供了高质量的语言资源。数据集采用垂直格式存储,每个标记单独成行,语音转录在前,正字法转录在后,便于分析和处理。此外,数据集通过XML结构标记了话语的ID和说话者信息,增强了数据的可追溯性和结构化程度。对齐过程中还引入了额外的检查机制,确保对齐的准确性,进一步提升了数据的可靠性。
使用方法
ndc-aligned数据集的使用方法较为直观。用户可从`aligned`文件夹中获取对齐后的数据,数据以XML格式存储,便于解析和处理。每个话语通过`<u>`标签封装,包含唯一ID和说话者标识,用户可根据这些信息进行特定说话者或话语的分析。语音和正字法转录的标记按行排列,用户可直接提取或对比两者内容。此外,数据集提供了对齐脚本,用户可基于原始语音和正字法转录文件进行自定义对齐处理,满足特定研究需求。
背景与挑战
背景概述
ndc-aligned数据集是一个专注于挪威方言的语音与正字法对齐的语料库,旨在为语言学研究提供高质量的标注数据。该数据集由奥斯陆大学的ScandiaSyn项目团队创建,主要研究人员包括语言学领域的专家。其核心研究问题在于如何有效地对齐语音转录与正字法转录,以支持方言语音学、语音识别及自然语言处理等领域的研究。该数据集的发布为挪威方言研究提供了重要的数据支持,推动了方言语音学与计算语言学的交叉研究。
当前挑战
ndc-aligned数据集在构建过程中面临多重挑战。首先,原始数据中语音转录与正字法转录的句子数量不一致,且正字法转录中包含引号等符号,而语音转录中则缺失这些符号,导致对齐过程复杂化。其次,部分文件的末尾语音转录缺失正字法对应内容,需通过特殊标记处理。此外,对齐算法需确保每个语音标记与正字法标记一一对应,同时跳过无关符号,这对数据处理脚本的精确性提出了较高要求。这些挑战不仅影响了数据集的构建效率,也对后续研究的准确性提出了更高的标准。
常用场景
经典使用场景
在方言学和语音学研究中,ndc-aligned数据集为研究者提供了一个宝贵的资源,用于分析挪威方言的语音和正字法之间的对应关系。通过该数据集,研究者可以深入探讨方言发音与书面表达之间的差异,进而揭示语言变体的复杂性。
衍生相关工作
基于ndc-aligned数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了挪威方言的语音识别模型,并进一步探索了方言与标准语之间的转换规则。此外,该数据集还促进了跨语言语音对齐技术的发展,为多语言语音处理提供了新的思路。
数据集最近研究
最新研究方向
近年来,ndc-aligned数据集在挪威方言研究领域引起了广泛关注,尤其是在语音与正字法对齐技术方面。该数据集通过将语音转录与正字法转录进行精确对齐,为方言语音学研究提供了高质量的数据支持。研究者们利用这一数据集,探索了挪威方言的语音变异模式及其与地理、社会因素的关系。此外,该数据集还被用于开发自动语音识别系统,特别是在处理多方言环境下的语音数据时,展现了其独特的优势。随着自然语言处理技术的进步,ndc-aligned数据集在方言保护、语音合成及跨语言研究中的应用前景愈发广阔。
以上内容由遇见数据集搜集并总结生成



