首尔韩语重音短语数据集

Name: 首尔韩语重音短语数据集
Creator: 罗格斯大学; 嘉泉大学; 汉阳大学·语音与语言认知科学研究所
Published: 2026-04-21 21:59:37
License: 暂无描述

arXiv2026-04-21 更新2026-04-23 收录

下载链接：

https://github.com/hyunjungjoo/Accentual-Phrases-in-Seoul-Korean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由韩国AI Hub提供的广播会话数据构建的首个大规模韩语重音短语标注库，包含18名专业播音员产生的10,093个重音短语，人工标注为16种离散音高模式。数据经过pYIN算法提取基频轮廓并标准化处理，采用K-ToBI音系框架进行严格标注，为韩语语调研究提供了首个数据驱动的基准测试集。其核心价值在于连接自主音段-节律理论与深度学习，通过连续基频建模解决传统离散分类方法在真实语音变异性下的映射难题，可应用于语音合成、语调识别及跨语言韵律研究领域。

This dataset is the first large-scale Korean accentual phrase annotation corpus constructed from broadcast conversational data provided by the Korean AI Hub. It encompasses 10,093 accentual phrases produced by 18 professional broadcasters, with each phrase manually annotated as one of 16 discrete pitch patterns. The data was processed by extracting fundamental frequency (F0) contours via the pYIN algorithm and standardized, and strictly annotated following the K-ToBI phonological framework, making it the first data-driven benchmark dataset for Korean intonation research. Its core value lies in bridging Autosegmental-Metrical Theory and deep learning, solving the mapping difficulties of traditional discrete classification methods under real-world speech variability through continuous fundamental frequency modeling. This corpus can be applied to research fields including speech synthesis, intonation recognition, and cross-linguistic prosody studies.

提供机构：

罗格斯大学; 嘉泉大学; 汉阳大学·语音与语言认知科学研究所

创建时间：

2026-04-21

原始信息汇总

数据集概述

数据集名称

Accentual-Phrases-in-Seoul-Korean

数据来源与构成

数据源：基于AI Hub（韩国国家信息社会振兴院，2022年）提供的大规模广播对话语料库构建。
发音人：为确保清晰的韵律实现和精确的发音，筛选了18位专业广播员（11位女性，7位男性）的录音。
数据规模：共包含10,093个首尔韩语的重音短语。
标注规范：每个重音短语均由两位经过培训的标注员依据K-ToBI（Jun, 2000）标注体系进行标注。

数据分类

重音短语被归类为16种音高重音类别，具体类别及出现频率如下：

类别	频率	类别	频率
H	200	L	15
HH	1,168	LH	1,318
HHL	77	LHH	1,084
HHLH	1,463	LHL	81
HHLL	784	LHLH	2,705
HL	57	LHLL	431
HLH	259	LL	8
HLL	26	LLH	417

参考文献

National Information Society Agency. 2022. Broadcasting content conversational data. https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71557.
Sun-Ah Jun. 2000. K-tobi (korean tobi) labelling conventions. UCLA working papers in phonetics, 99:149–173.

数据下载地址

https://drive.google.com/drive/u/1/folders/1ilMrCCfJWLPNpdvGkOtD0k4DLWF41YD7

搜集汇总

数据集介绍

构建方式

在首尔韩语韵律研究领域，为填补理论模型与真实语音数据之间的鸿沟，该数据集通过系统化的人工标注流程构建而成。研究团队从AI Hub提供的大规模广播会话语料库中，筛选了18位专业播音员的录音材料，以确保发音清晰与韵律结构的典型性。基于感知判断与基频曲线的视觉检查，研究人员手动切分出10,093个重音短语，并依据韩语韵律标注系统K-ToBI，由两位经过训练的标注者对每个短语的精细音高重音模式进行独立标注，最终形成了涵盖16种离散调类的大规模基准数据集。

特点

该数据集的核心特征在于其规模性与标注质量，成为首尔韩语首个大规模音高重音模式基准资源。数据集中重音短语的调类分布呈现自然的不均衡性，涵盖了从单音节到多音节的十四种可能调型，包括LHLH、HHLH等典型模式，真实反映了首尔韩语作为边缘突显语言的韵律特性。所有样本均附有经过严格一致性校验的人工音高重音标签，并提供了原始的基频轮廓数据，为连接自主音段-节律理论框架与数据驱动的计算方法提供了关键桥梁。

使用方法

该数据集主要应用于音高重音模式的自动分类与韵律建模研究。使用者可提取标准化后的基频轮廓序列作为输入特征，结合深度对比学习等先进框架，学习对说话人差异和声学噪声鲁棒的韵律表征。数据集的标注信息支持有监督的分类任务评估，其分层韵律结构也为研究音高重音与更高层级语调短语的关系提供了基础。此外，该资源可用于训练和评估语音合成系统中的韵律生成模块，或服务于语言学领域对首尔韩语语调变体的实证分析。

背景与挑战

背景概述

首尔韩语重音短语数据集是首个针对首尔韩语调音短语的大规模基准数据集，由罗格斯大学与嘉泉大学的研究团队于2026年构建。该数据集旨在弥合自主音段-节律理论框架下离散调音范畴与真实语音中连续基频实现之间的鸿沟，核心研究问题聚焦于如何将高度可变的连续基频轨迹稳健地映射到首尔韩语的十四种精细调音模式。通过手动标注10,093个调音短语，该数据集为基于数据驱动的语调音系学研究提供了关键资源，推动了语调建模从传统专家标注向大规模计算分析的范式转变，对语音合成、自动语音分析及语调理论验证等领域具有重要影响力。

当前挑战

该数据集旨在解决首尔韩语调音模式分类这一核心领域问题，其首要挑战在于处理连续基频轨迹固有的高度变异性，这种变异性源于说话人性别差异、语音风格及语音语境等因素，使得将连续信号映射到离散调音范畴变得极为复杂。在构建过程中，研究团队面临多重挑战：一是数据标注依赖人工感知和K-ToBI转录系统，存在主观偏差且难以规模化；二是原始音频的基频提取常因元音清化、基频折半错误、喉化现象及局部音高扰动而出现轨迹丢失或误差；三是数据集中十六种调音模式的样本分布存在严重类别不平衡，少数类别样本量不足百个，制约了模型的整体泛化性能与评估指标。

常用场景

经典使用场景

在首尔韩语韵律研究领域，该数据集为音高重音模式的精细分类提供了关键实验基础。其核心应用场景在于验证自主音段-节律理论中离散音高范畴与连续基频曲线之间的映射关系。通过提供大规模人工标注的重音短语样本，研究者能够系统评估不同计算模型在复杂声学变异下的分类性能，从而深化对边缘突出语言韵律结构的理解。

衍生相关工作

该数据集催生了多项创新性研究，特别是在深度学习与韵律分析的结合方面。基于对比学习的Dual-Glob框架开创了从整体轮廓角度建模音高模式的新范式，启发了后续关于韵律表征学习的工作。相关研究进一步探索了音节时长信息与基频特征的融合策略，以及针对性别差异的域适应方法，为多语言韵律分析提供了可迁移的技术框架。

数据集最近研究