espnet/wikitongues
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/espnet/wikitongues
下载链接
链接失效反馈官方服务:
资源简介:
WikiTongues语音语料库是一个包含700多种语言的对话音频集合。该数据集可用于口语建模或语音表示学习。数据集包括16kHz单声道格式的原始未分段音频。每个剪辑通常为2-10分钟长,包含一个或多个说话者用他们的语言进行对话。有时,说话者可能会在一个剪辑中切换语言。数据集的总时长约为70小时。当前版本的数据集不包含每个剪辑中所说语言的标签,此信息将在未来的更新中加入。该数据集是从WikiTongues项目中爬取的,用于训练XEUS,一个支持4000多种语言的多语言语音编码器。
The WikiTongues speech corpus is a collection of conversational audio across 700+ languages, suitable for spoken language modelling or speech representation learning. This dataset includes raw unsegmented audio in a 16kHz single channel format. Each clip is usually 2-10 minutes long, containing one or more speakers conversing in their language(s), with occasional language switching within a single clip. The total dataset size is around 70 hours. The current version does not include labels for the language(s) being spoken in each clip, but this information will be included in an update in the near future. The dataset was sourced from the WikiTongues project and is used to train XEUS, a multilingual speech encoder for 4000+ languages.
提供机构:
espnet
原始信息汇总
WikiTongues 语音语料库
概述
- 语言: 多语言,包括英语
- 任务类别: 音频到音频
- 数据格式: 16kHz 单声道音频
- 数据集大小: 约 70 小时
数据集信息
- 特征:
id: 字符串类型audio: 音频类型,采样率为 16000
- 分割:
train: 包含 820 个样本,总大小为 6731807325 字节
- 下载大小: 6611613572 字节
- 数据集大小: 6731807325 字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
其他信息
- 音频长度: 每个音频片段通常为 2-10 分钟
- 语言切换: 有时说话者在单个片段中会切换语言
- 语言标签: 当前版本不包含语言标签,未来更新将添加此信息



