SEACrowd/voxlingua
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/voxlingua
下载链接
链接失效反馈官方服务:
资源简介:
VoxLingua107是一个综合语音数据集,专为训练语音语言识别模型而设计。该数据集包含从YouTube视频中提取的短语音片段,并根据视频标题和描述中的语言进行标注。数据集覆盖107种语言,总共有6628小时的语音数据,平均每种语言有62小时的数据,但每种语言的实际数据量差异较大。此外,还有一个独立的开发集,包含来自33种语言的1609个语音片段,这些片段至少由两名志愿者验证,以确保语言表示的准确性。
VoxLingua107是一个综合语音数据集,专为训练语音语言识别模型而设计。该数据集包含从YouTube视频中提取的短语音片段,并根据视频标题和描述中的语言进行标注。数据集覆盖107种语言,总共有6628小时的语音数据,平均每种语言有62小时的数据,但每种语言的实际数据量差异较大。此外,还有一个独立的开发集,包含来自33种语言的1609个语音片段,这些片段至少由两名志愿者验证,以确保语言表示的准确性。
提供机构:
SEACrowd



