wikitongues

Hugging Face2024-07-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/espnet/wikitongues

下载链接

链接失效反馈

官方服务：

资源简介：

WikiTongues语音语料库是一个包含700多种语言对话音频的集合，适用于口语建模或语音表示学习。数据集包含未经分割的原始音频，采样率为16kHz，单声道格式。每个音频片段通常为2-10分钟，包含一个或多个说话者用他们的语言进行对话，有时说话者可能在同一片段中切换语言。当前版本的数据集不包含每个片段所使用语言的标签，但计划在不久的将来更新中包含此信息。数据集总时长约为70小时。数据集从WikiTongues项目爬取，用于训练XEUS，一个支持4000多种语言的多语言语音编码器。

WikiTongues Speech Corpus is a collection of conversational audio spanning over 700 languages, tailored for spoken language modeling and speech representation learning. The dataset contains unsegmented raw audio encoded at a 16 kHz sampling rate in monaural format. Each audio clip typically ranges from 2 to 10 minutes in length, featuring conversations between one or more speakers in their respective languages, with occasional language switching by speakers within a single clip. The current iteration of the dataset does not include language labels for each clip, though this information is scheduled to be added in an upcoming update. The total cumulative duration of the dataset is approximately 70 hours. The dataset was crawled from the WikiTongues project, and is intended for training XEUS, a multilingual speech encoder that supports over 4000 languages.

创建时间：

2024-06-25

原始信息汇总

数据集概述

数据集信息

特征:
- id: 字符串类型
- audio: 音频类型，采样率为16000Hz
分割:
- train: 包含820个样本，总字节数为6731807325
下载大小: 6611613572字节
数据集大小: 6731807325字节
配置:
- default: 包含训练数据文件，路径为data/train-*
语言: 多语种，包括英语
任务类别: 音频到音频

数据集描述

内容: WikiTongues语音语料库包含700多种语言的对话音频。
格式: 原始未分割音频，16kHz单通道格式。
时长: 每个片段通常为2-10分钟，包含一个或多个说话者用其语言进行对话。
总时长: 约70小时。
当前版本: 不包含每个片段中使用的语言标签，该信息将在未来更新中包含。

许可证

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0

搜集汇总

数据集介绍

构建方式

WikiTongues数据集是通过爬取WikiTongues项目中的原始录音构建而成，该项目收集了来自700多种语言的对话音频。数据集中的音频以16kHz单声道格式保存，每个片段通常持续2至10分钟，包含一个或多个说话者使用其母语进行对话。尽管当前版本未包含每个片段中语言的标签信息，但未来更新将补充这一内容。

使用方法

WikiTongues数据集可用于训练多语言语音编码器，如XEUS模型，支持4000多种语言的语音表示学习。用户可通过HuggingFace平台下载数据集，并利用其进行语音建模或跨语言语音研究。使用该数据集时，需遵循CC BY-NC-SA 4.0许可协议，并引用相关论文以尊重原始数据贡献者。

背景与挑战

背景概述

WikiTongues数据集是一个涵盖700多种语言的对话音频集合，由WikiTongues项目收集原始录音，并由研究人员进一步整理和发布。该数据集的主要目的是支持多语言语音建模和语音表示学习的研究。数据集中的音频以16kHz单声道格式存储，每个片段通常持续2至10分钟，包含一种或多种语言的对话。该数据集的最新版本尚未包含每个片段中所使用语言的标签，但计划在未来的更新中提供。该数据集已被用于训练XEUS，一个支持4000多种语言的多语言语音编码器，相关研究成果已在2024年发表。

当前挑战

WikiTongues数据集面临的挑战主要体现在两个方面。首先，数据集中缺乏语言标签，这为多语言语音建模和语音表示学习带来了困难，研究者需要依赖额外的语言识别技术或手动标注来识别音频中的语言。其次，数据集的构建过程中，由于涉及700多种语言的音频收集和整理，语言多样性和数据质量的平衡成为一大挑战。不同语言的音频样本数量和质量差异较大，可能导致模型训练时的偏差。此外，部分音频片段中存在语言切换现象，进一步增加了数据处理的复杂性。

常用场景

经典使用场景

WikiTongues数据集广泛应用于多语言语音建模和语音表示学习领域。其包含超过700种语言的对话音频，为研究者提供了一个丰富的多语言语音资源库。通过分析这些未分割的原始音频，研究者可以深入探索不同语言的语音特征和模式，进而推动多语言语音识别和合成技术的发展。

解决学术问题

WikiTongues数据集解决了多语言语音表示学习中的关键问题，尤其是在低资源语言的研究中。由于许多语言缺乏足够的标注数据，该数据集为研究者提供了一个无标签的多语言语音资源，使得在没有大量标注数据的情况下，依然能够进行有效的语音表示学习。这对于推动全球语言多样性的保护和语音技术的普及具有重要意义。

实际应用

在实际应用中，WikiTongues数据集被用于训练多语言语音编码器，如XEUS模型。该模型能够处理超过4000种语言的语音数据，广泛应用于语音识别、语音合成和跨语言语音翻译等领域。通过利用该数据集，开发者能够构建更加鲁棒和通用的语音处理系统，服务于全球不同语言背景的用户。

数据集最近研究