VoxPopuli
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VoxPopuli
下载链接
链接失效反馈官方服务:
资源简介:
VoxPopuli 是一个大规模的多语言语料库,以 23 种语言提供 10 万小时的未标记语音数据。它是迄今为止最大的无监督表示学习和半监督学习的开放数据。 VoxPopuli 还包含 1.8K 小时的 16 种语言的转录演讲,以及将它们对齐的口译成其他 5 种语言,总计 5.1K 小时。
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

背景与挑战
背景概述
VoxPopuli是一个大规模多语言语音语料库,提供23种语言的10万小时未标记数据,是目前最大的开放数据资源,适用于无监督表示学习和半监督学习。该数据集还包含1.8K小时16种语言的转录演讲,以及对译成其他5种语言的5.1K小时对齐内容,由Facebook AI Research于2021年发布。
以上内容由遇见数据集搜集并总结生成



