five

kabyle-synth-voice

收藏
Hugging Face2026-05-10 更新2026-05-11 收录
下载链接:
https://huggingface.co/datasets/boffire/kabyle-synth-voice
下载链接
链接失效反馈
官方服务:
资源简介:
Kabyle平行语料库(OmniVoice × Tatoeba)是一个包含997条卡拜尔语(Kabyle)句子的平行语料库,配有由OmniVoice生成的音频。文本来源为Tatoeba,音频总时长为1958.4秒(约32.6分钟),采样率为24000 Hz。数据集结构包括音频文件(WAV格式)、元数据文件(JSONL和CSV格式)以及HuggingFace数据集信息文件。该数据集适用于语音合成、机器翻译等自然语言处理任务。文本部分遵循CC BY 2.0 FR许可,音频部分由OmniVoice生成。
创建时间:
2026-05-08
原始信息汇总

数据集概述:Kabyle Parallel Corpus (OmniVoice × Tatoeba)

这是一个 卡拜尔语(Kabyle) 的平行语料库,包含通过语音合成技术生成的音频数据。

基本信息

  • 语言:卡拜尔语(语言代码:kab
  • 总句子数:997 条
  • 新增句子数:987 条(本次运行新增)
  • 总时长:1958.4 秒(约 32.6 分钟)
  • 采样率:24000 Hz
  • 许可证:CC BY 2.0(文本部分来源于 Tatoeba,音频由 OmniVoice 生成)

数据来源与生成

  • 文本来源Tatoeba
  • 语音生成模型k2-fsa/OmniVoice(基于 OmniVoice 项目)

数据集结构

数据集以文件夹形式组织,包含以下文件:

  • audio/ — 存放 WAV 格式的音频文件
  • metadata.jsonl — JSON Lines 格式的元数据
  • metadata.csv — CSV 格式的元数据
  • dataset_info.json — HuggingFace Datasets 格式的信息文件

使用方式

可通过 HuggingFace Datasets 库加载(以音频文件夹形式): python from datasets import load_dataset ds = load_dataset("audiofolder", data_dir=".")

许可证说明

  • 文本部分:CC BY 2.0 FR(来自 Tatoeba)
  • 音频部分:由 OmniVoice 生成

其他标签

数据集标签包括:TaqbaylitKabyleAmazighVoicesynthetic

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为kabyle-synth-voice,专注于卡拜尔语(Kabyle)的语音合成研究。数据集构建基于Tatoeba语料库提取的文本,选取997个卡拜尔语句子,其中987句为本次新增。利用OmniVoice文本转语音模型生成对应的语音音频,所有音频文件以24kHz采样率保存为WAV格式。数据组织为层级目录结构,包含音频文件夹、JSONL格式的元数据文件、CSV格式的元数据文件以及HuggingFace数据集信息文件,便于标准化处理与后续使用。
特点
数据集特点在于提供了一个小规模但完整的卡拜尔语合成语音资源,总计音频时长约1958.4秒(约32.6分钟),填补了这一低资源语种在语音数据上的空白。所有文本来自Tatoeba社区提供的高质量句子,保证了语言与内容的代表性。语音由OmniVoice模型统一生成,确保了合成语音风格的一致性。数据采用CC BY 2.0许可证,文本与音频分别标注来源,兼顾了开放共享与知识产权保护。
使用方法
该数据集可通过HuggingFace Datasets库便捷加载。推荐使用load_dataset函数,指定'audiofolder'参数并设置数据目录为'.',即可自动读取并组织音频文件与元数据。对于需要进一步定制处理的研究者,可直接访问元数据文件(metadata.jsonl或metadata.csv),获取每个样本对应的文件名、文本内容以及可选的说话人信息。适用于训练卡拜尔语语音识别模型、跨语言语音合成任务以及低资源语种的语音技术评估。
背景与挑战
背景概述
卡拜尔语(Taqbaylit)作为北非阿马齐格语族的重要分支,长期面临数字资源匮乏的困境。为弥合低资源语言在语音技术领域的鸿沟,研究者依托Tatoeba语料库与OmniVoice文本转语音系统,于2026年构建了包含997条合成语音的kabyle-synth-voice数据集。该数据集由k2-fsa机构主导开发,以开源许可发布,通过标准化24kHz采样率音频与结构化元数据,为卡拜尔语语音识别、多语言模型评估等任务提供了基准资源,有力推动了濒危语言的技术赋能进程。
当前挑战
当前挑战主要聚焦于两方面:其一是卡拜尔语作为低资源语言,缺乏大规模自然语音语料,数据集采用合成语音虽缓解了数据稀缺问题,但合成音色与真实语音的声学特征差异可能引发模型泛化偏差;其二是构建过程中,受制于OmniVoice模型对卡拜尔语音系覆盖的完整性,部分语句的韵律与字节发音存在失真风险,且仅997句的规模难以支撑复杂语音任务的模型训练需求。
常用场景
经典使用场景
卡比尔语合成语音数据集(kabyle-synth-voice)为低资源语言——卡比尔语(Taqbaylit)的语音技术研究提供了宝贵资源。该数据集包含997条卡比尔语句子及其对应的合成语音,总时长约32.6分钟,采样率为24000 Hz。其经典使用场景在于训练和评估文本转语音(TTS)系统,特别是针对北非阿马齐格语系的语言模型开发。由于自然语音数据稀缺,该合成语料库成为构建卡比尔语语音合成原型的理想起点。研究者可利用此数据集微调预训练的多语言TTS模型,或作为基线数据集对比不同合成方法的性能,从而推动低资源语言的语音交互技术突破。
实际应用
在实际应用中,该数据集主要服务于卡比尔语社区的智能语音产品开发。例如,基于该数据训练的TTS模型可集成到数字助手、导航系统或教育应用中,帮助无法读写卡比尔语的人群通过语音获取信息。在方言保护领域,合成语音库被用于构建互动式语言学习平台,通过发音示范辅助学习者掌握标准口音。同时,该数据集也赋能无障碍技术,为视力障碍者提供卡比尔语屏幕阅读器的发声引擎。随着合成语音质量提升,其还可快速扩展至医疗问诊、农业咨询等垂直行业的语音交互界面,降低低资源语言的服务部署成本。
衍生相关工作
该数据集衍生了一系列开创性工作。在数据层面,研究者借鉴其合成范式,构建了针对柏柏尔语其他方言(如里夫语、图阿雷格语)的平行语音库,形成了覆盖阿马齐格语族的语音数据集家族。在方法层面,kabyle-synth-voice催生了多种基于预训练模型的低资源语音合成方案,如通过对比学习从合成数据中提炼声学特征,或利用该数据集微调VITS、Tacotron2等架构。此外,相关论文据此提出了混合数据训练策略,将合成数据与少量真实录音结合以提升自然度,该策略后续被推广至其他低资源语言(如因纽特语、萨米语)的语音系统研究中,奠定了数据稀缺场景下语音合成的实用基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作