JSS Dataset (Jejueo Single Speaker Speech)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/JSS_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
济州岛在 2010 年被联合国教科文组织列为极度濒危物种。尽管已经做出了各种努力来振兴它,但很少有计算方法。受此启发,我们构建了两个新的 Jejueo 数据集:Jejueo 面试成绩单 (JIT) 和 Jejueo 单人演讲 (JSS)。 JIT 数据集是一个包含 170k+ Jejueo-Korean 句子的并行语料库,而 JSS 数据集由 10k 个由济州本地人录制的高质量音频文件和一个转录文件组成。随后,我们使用它们构建机器翻译和语音合成的神经系统。所有资源都可以通过我们的 GitHub 存储库公开获得。我们希望这些数据集能够吸引语言和机器学习社区的兴趣。
Jejueo was listed as a critically endangered language by UNESCO in 2010. Despite numerous revitalization efforts having been made, few computational methods have been developed for this language. Inspired by this research gap, we constructed two novel Jejueo datasets: Jejueo Interview Transcripts (JIT) and Jejueo Solo Speech (JSS). The JIT dataset is a parallel corpus containing over 170,000 Jejueo-Korean sentence pairs, while the JSS dataset comprises 10,000 high-quality audio recordings and their corresponding transcriptions produced by native Jeju speakers. Subsequently, we leveraged these datasets to build neural systems for machine translation and speech synthesis. All resources are publicly available via our GitHub repository. We anticipate that these datasets will attract interest from both the linguistic and machine learning communities.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
JSS数据集是一个针对濒危语言济州岛语的高质量语音资源,包含1万个由本地人录制的音频文件和转录文件,用于支持机器翻译和语音合成任务。该数据集由Kakao Brain于2019年发布,所有资源可公开获取。
以上内容由遇见数据集搜集并总结生成



