Croatian ParlaStress-HR, Serbian ParlaStress-SR, Chakavian Mi´ciPrinc-CKM, Slovenian Artur-SL

Name: Croatian ParlaStress-HR, Serbian ParlaStress-SR, Chakavian Mi´ciPrinc-CKM, Slovenian Artur-SL
Creator: 斯洛文尼亚约热·斯蒂芬研究所知识与技术研究部, 斯洛文尼亚卢布尔雅那大学计算机与信息科学学院, 斯洛文尼亚卢布尔雅那当代历史研究所
Published: 2025-05-30 21:23:46
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://doi.org/10.57967/hf/5658

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究多音节词中主要重音的位置。数据集包括克罗地亚语、塞尔维亚语、查克维亚方言和斯洛文尼亚语的训练和测试数据。数据集大小与英语数据集相似，测试集足够大，可以合理地评估各种模型的表现。数据集的创建过程包括数据预处理、手动数据标注等。数据集的应用领域包括计算机辅助语言学习、语音合成、儿童语音研究等。

This dataset is intended for research on the placement of primary stress in polysyllabic words. It includes training and test data for Croatian, Serbian, Chakavian dialect, and Slovenian. Its scale is comparable to that of English datasets, and the test set is large enough to reasonably evaluate the performance of various models. The dataset creation process involves steps such as data preprocessing and manual data annotation. Its application fields include computer-assisted language learning, speech synthesis, child speech research, and others.

提供机构：

斯洛文尼亚约热·斯蒂芬研究所知识与技术研究部, 斯洛文尼亚卢布尔雅那大学计算机与信息科学学院, 斯洛文尼亚卢布尔雅那当代历史研究所

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

该数据集构建过程依托于南斯拉夫语系的开放语音资源，通过精心设计的采样策略确保数据的多样性和平衡性。克罗地亚语训练集ParlaStress-HR及其测试集源自议会录音的ParlaSpeech-HR语料库，采用句子级采样并严格分离说话人；塞尔维亚语测试集ParlaStress-SR从ParlaSpeech-RS中抽取，保持说话人多样性；查克维亚方言测试集Mi´ciPrinc-CKM选自双语书籍的章节级对齐文本；斯洛文尼亚语测试集Artur-SL则来自GOS口语语料库的三种场景采样。所有数据均经过音素级对齐处理，并采用Praat工具由母语者标注多音节词的主重音位置，标注一致性达到96.2%的优异水平。

特点

该数据集最显著的特点是覆盖四种密切关联却存在重音差异的南斯拉夫语言变体，包含30,561个音节的训练数据和6,751个音节的测试数据。克罗地亚语和塞尔维亚语数据展现高度一致性，而查克维亚方言和斯洛文尼亚语则呈现显著的重音位置变异，这种渐进式语言差异为研究跨语言迁移提供了理想实验场景。数据标注采用严格的音节核定位策略，通过双重标注验证的0.92 Krippendorff α系数确保了标注可靠性，其规模与英语主流数据集相当，但填补了斯拉夫语族在该研究领域的空白。

使用方法

该数据集专为基于Transformer的语音编码器模型优化设计，支持20ms帧级别的二进制分类任务。研究者可加载预训练的w2v-bert-2.0模型，在音节核时间窗内标注为1的帧序列上进行微调，建议采用1×10−5学习率和20个训练周期。评估时需将模型输出的连续正类预测转换为单词级重音位置，通过选择最长正类跨度对应的音节核实现。对于传统方法对比，数据集提供音强、基频等9种韵律特征，支持SVM等分类器的音节级分类实验。数据的分语言设计允许进行跨语言迁移研究，特别适合探讨模型对克罗地亚语首音节重音偏好的泛化能力。

背景与挑战

背景概述

Croatian ParlaStress-HR、Serbian ParlaStress-SR、Chakavian Mi´ciPrinc-CKM和Slovenian Artur-SL数据集由Joˇzef Stefan研究所的Nikola Ljubeˇsi´c等人构建，旨在解决南斯拉夫语系中多音节词主重音自动识别的核心问题。这些数据集基于议会录音、有声书籍及口语语料库构建，覆盖克罗地亚语、塞尔维亚语、查克方言和斯洛文尼亚语，填补了非英语重音检测研究的空白。其创新性在于利用预训练语音Transformer模型，显著提升了跨语言和方言的重音识别准确率，为语音合成、语言学习及儿童语言研究提供了重要资源。

当前挑战

该领域面临双重挑战：其一，传统声学特征方法（如SVM）在跨语言场景下性能显著落后于Transformer模型，尤其在查克方言和斯洛文尼亚语中准确率下降10-12个百分点；其二，数据构建过程中需克服方言变体导致的标注复杂性（如克罗地亚语6%的多音节词存在重音位置变异），以及小语种对齐与标注资源匮乏的问题。此外，模型对克罗地训练数据首音节重音的偏好，限制了其在重音位置分布差异较大语言（如斯洛文尼亚语）的泛化能力。

常用场景

经典使用场景

在语音处理领域，自动识别多音节词中的主重音位置对于理解语言意义和辅助语音理解具有重要作用。Croatian ParlaStress-HR、Serbian ParlaStress-SR、Chakavian Mi´ciPrinc-CKM和Slovenian Artur-SL数据集为研究南斯拉夫语系中主重音识别提供了重要资源。这些数据集通过精细标注的音节核和主重音位置，为基于Transformer的语音编码器模型提供了训练和测试基础。其经典使用场景包括利用预训练模型进行微调，以识别不同语言和方言中的主重音位置，从而验证模型在跨语言任务中的泛化能力。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于传统声学特征的SVM分类器与预训练Transformer模型的对比实验。相关研究还探讨了模型在跨语言和方言中的迁移能力，以及小样本学习的有效性。此外，数据集为后续研究提供了基准，例如模型鲁棒性优化和性别、词汇记忆效应等深入分析。这些工作不仅推动了主重音识别技术的发展，还为多语言语音处理提供了新的研究方向。

数据集最近研究