AigizK/bashkort_voice
收藏Hugging Face2026-04-18 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/AigizK/bashkort_voice
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- ba
task_categories:
- automatic-speech-recognition
- text-to-speech
pretty_name: Bashkort Voice
tags:
- audio
- bashkir
- tts
- asr
configs:
- config_name: default
data_files:
- split: train
path: data/train-*.parquet
---
# Bashkort Voice
### 🇬🇧 English Version
**Dataset Description**
This is a synthetic Bashkir audio dataset generated using the **OmniVoice** model. It is designed to expand the availability of spoken data for the Bashkir language.
**Data Preparation Process**
The dataset was constructed through a cross-lingual voice cloning and generation process, using the following methodology:
1. **Target Text:** Bashkir sentences were extracted from the [AigizK/bashkir-russian-parallel-corpora](https://huggingface.co/datasets/AigizK/bashkir-russian-parallel-corpora) dataset.
2. **Reference Voices:** The [bond005/sova_rudevices](https://huggingface.co/datasets/bond005/sova_rudevices) dataset was utilized to provide reference audio samples and their corresponding reference texts.
3. **Generation Strategy:** For each individual reference audio sample, **10 new audio files** were generated. This was achieved by applying the voice characteristics of a single reference audio to 10 different Bashkir sentences.
***
### 🇷🇺 Русская версия
**Описание датасета**
Данный датасет представляет собой набор синтетических аудиозаписей на башкирском языке, сгенерированных с использованием нейросетевой модели **OmniVoice**.
**Процесс подготовки данных**
Датасет был создан по следующему алгоритму:
1. **Текстовая база:** В качестве исходных текстов для озвучивания были отобраны башкирские предложения из параллельного корпуса [AigizK/bashkir-russian-parallel-corpora](https://huggingface.co/datasets/AigizK/bashkir-russian-parallel-corpora).
2. **Референсные голоса:** В качестве референсных голосовых образцов (аудиозапись + текст исходника) использовались данные из датасета [bond005/sova_rudevices](https://huggingface.co/datasets/bond005/sova_rudevices).
3. **Генерация:** Для каждой записи из референсного датасета было сгенерировано **10 новых аудиофайлов**. Таким образом, голос из одного оригинального аудио был перенесен на 10 различных башкирских предложений.
---
- **Язык:** Башкирский (ba)
- **Аудио:** 16 kHz, mono, FLAC (16-bit PCM)
- **Длительность:** 1891ч 0м 25с
- **Колонки:** `text` (str), `audio` (Audio)
提供机构:
AigizK
搜集汇总
数据集介绍

构建方式
Bashkort Voice数据集的构建依托于跨语言语音克隆与生成技术,其核心流程始于从AigizK/bashkir-russian-parallel-corpora语料库中提取巴什基尔语句子作为目标文本。随后,借助bond005/sova_rudevices数据集提供的参考语音样本及对应文本,利用OmniVoice模型对每一份参考音频实施语音特征迁移,为每条参考音频生成10条全新的巴什基尔语语音文件。这一策略有效扩大了巴什基尔语语音数据的规模,实现了从有限参考资源到丰富合成语料的跨越。
特点
该数据集以16kHz采样率、单声道FLAC格式存储音频,总时长达到1891小时25秒,覆盖巴什基尔语言场景。其设计兼具双重用途,既适用于自动语音识别(ASR)任务,也服务于文本转语音(TTS)系统的训练。数据集中每条记录包含文本(text)与音频(audio)两个字段,结构简洁而标准化,便于直接接入现代语音处理流水线。合成语音在保持参考音色一致性的同时,展现了巴什基尔语句法的多样性。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,其默认配置下仅提供训练集(train),数据以Parquet格式存储于data/train-*.parquet路径下。加载后,开发者可直接访问text字段获取转录文本,利用audio字段获取音频对象进行特征提取或模型输入。该数据集适合用于低资源语言巴什基尔语的ASR基线模型微调,或作为TTS系统的训练语料,以增强模型对非主流语言的合成能力。
背景与挑战
背景概述
巴什基尔语作为俄罗斯联邦的一种少数民族语言,其语音资源极为匮乏,严重制约了该语言在自动语音识别(ASR)与文本转语音(TTS)领域的技术发展。为弥补这一空白,Bashkort Voice数据集应运而生。该数据集由研究者利用跨语言语音克隆与生成技术,于近期基于OmniVoice模型构建而成。其核心研究问题在于通过合成手段,为低资源语言提供大规模、高质量的有声数据。数据集依托AigizK/bashkir-russian-parallel-corpora与bond005/sova_rudevices两个既有资源,采用单参考音频驱动多句生成的策略,最终产出了近1891小时的巴什基尔语音频,显著拓展了该语言的语音数据基础,对促进少数民族语言语音技术的进步具有里程碑式的意义。
当前挑战
当前,Bashkort Voice数据集所面临的核心挑战集中于领域问题的解决与构建过程的优化。首先,在领域问题层面,巴什基尔语作为低资源语言,其ASR与TTS系统的开发长期受困于真实语音数据的稀缺性与多样性不足,合成数据虽可扩充规模,但难以完全模拟自然语音中的韵律、情感与背景噪声,导致模型在真实场景下的泛化能力受限。其次,在构建过程中,数据集采用基于单一参考音频对10个不同句子进行语音克隆的策略,这一方法虽高效,却易引入音色单一化与合成伪影问题,且参考语音库的规模与质量直接决定了生成音频的自然度。此外,跨语言克隆过程中,源语言与目标语言在音系特征上的差异可能导致发音偏差,进一步增加了数据质量的不可控性。
常用场景
经典使用场景
在低资源语言语音处理领域,Bashkort Voice 数据集最为经典的使用场景是作为自动语音识别(ASR)和文本转语音(TTS)系统的训练语料。对于巴什基尔语这种数据稀缺的语言而言,该数据集通过合成音频提供了大规模、高质量的语音样本,弥补了真实语音数据匮乏的困境。研究人员可基于此数据集构建端到端的语音识别模型,或训练具备自然韵律的语音合成系统,从而推动该语言在人机交互、语音助手及无障碍通信等方向的基础能力建设。
解决学术问题
该数据集直接回应了低资源语言在语音技术研究中面临的核心瓶颈——标注语音数据的极度匮乏。通过跨语言语音克隆技术生成大规模巴什基尔语合成语音,它有效缓解了模型训练中因数据不足导致的过拟合与泛化能力弱的问题。在学术层面,它为验证跨语言语音迁移学习、多说话人语音合成以及噪声鲁棒性分析等前沿课题提供了可控的实验基准,其意义在于打破资源壁垒,使巴什基尔语这类语言能够平等参与语音领域的国际学术对话。
衍生相关工作
围绕该数据集已衍生出多项具有启发性的研究工作,包括基于 OmniVoice 模型的跨语言语音克隆优化策略、面向低资源语言的半监督 ASR 训练框架,以及利用合成数据增强真实语音鲁棒性的方法探索。后续工作还尝试将 Bashkort Voice 与巴什基尔-俄语平行语料库结合,构建多模态翻译系统,或利用其声学特征进行说话人身份识别与情感语音分析。这些衍生工作不仅深化了对合成语音数据价值的理解,也为其他低资源语言的语音技术突破提供了可复现的范式参考。
以上内容由遇见数据集搜集并总结生成



