five

JTubeSpeech

收藏
arXiv2021-12-17 更新2024-06-21 收录
下载链接:
https://github.com/sarulab-speech/jtubespeech
下载链接
链接失效反馈
官方服务:
资源简介:
JTubeSpeech是由东京大学等机构创建的一个大规模日语语音数据集,旨在支持语音识别和说话人验证研究。该数据集包含超过1,300小时的语音数据,用于自动语音识别(ASR),以及900小时的数据用于自动说话人验证(ASV)。数据来源于YouTube视频,通过自动筛选和处理视频及字幕获得。创建过程中,使用了连接时序分类(CTC)技术进行数据清洗和标注。JTubeSpeech的应用领域包括提升日语ASR和ASV系统的性能,解决日语语音技术资源不足的问题。

JTubeSpeech is a large-scale Japanese speech dataset developed by the University of Tokyo and other institutions, designed to support research in speech recognition and speaker verification. This dataset provides over 1,300 hours of speech data for automatic speech recognition (ASR) tasks, and 900 hours of data for automatic speaker verification (ASV) tasks. The data is collected from YouTube videos, acquired through automatic screening and processing of the videos and their accompanying subtitles. During the creation process, Connectionist Temporal Classification (CTC) technology was employed for data cleaning and annotation. The applications of JTubeSpeech include enhancing the performance of Japanese ASR and ASV systems, and addressing the shortage of resources for Japanese speech technology.
提供机构:
东京大学, 日本, 慕尼黑工业大学, 德国, 东京都立大学, 日本, 卡内基梅隆大学, 美国
创建时间:
2021-12-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作