five

FMSD-TTS|藏语语音合成数据集|语音处理数据集

收藏
arXiv2025-05-20 更新2025-05-22 收录
藏语语音合成
语音处理
下载链接:
http://arxiv.org/abs/2505.14351v1
下载链接
链接失效反馈
资源简介:
FMSD-TTS数据集是由电子科技大学信息与软件工程学院、西藏大学信息科学技术学院和德克萨斯大学西南医学中心眼科学系合作生成的,旨在解决藏语资源匮乏的问题。该数据集包含超过210小时的录音,涵盖了藏语三大主要方言——卫藏、安多和康巴,共计1,500多位母语者的音频样本,数据集大小为120,000条。数据集的生成过程中采用了FMSD-TTS模型,该模型能够从有限的参考音频和显式方言标签中合成平行方言语音。数据集的创建过程采用了先进的技术手段,包括讲者-方言融合模块和方言专用动态路由网络(DSDR-Net),能够捕捉不同方言之间的细微声学和语言变化,同时保持讲者身份。FMSD-TTS数据集的发布为藏语语音处理领域提供了宝贵的新资源,有助于推动自动语音识别(ASR)、语音翻译(ST)和语音-语音方言转换(S2SDC)等领域的研究。
提供机构:
电子科技大学信息与软件工程学院, 西藏大学信息科学技术学院, 德克萨斯大学西南医学中心眼科学系
创建时间:
2025-05-20
原始信息汇总

数据集概述

基本信息

  • 标题: FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
  • arXiv标识符: arXiv:2505.14351v1
  • 提交日期: 2025年5月20日
  • 领域: 计算机科学 > 语音 (cs.SD)
  • 作者: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

摘要

  • 研究背景: 藏语是一种低资源语言,其三大主要方言(Ü-Tsang、Amdo和Kham)的平行语音语料库稀缺,限制了语音建模的进展。
  • 解决方案: 提出FMSD-TTS,一种少样本、多说话人、多方言的文本到语音合成框架,能够从有限的参考音频和明确的方言标签中合成平行方言语音。
  • 创新点:
    • 新颖的说话人-方言融合模块。
    • 方言专用动态路由网络(DSDR-Net),用于捕捉跨方言的细粒度声学和语言变化,同时保留说话人身份。
  • 评估: 通过客观和主观评估,FMSD-TTS在方言表达和说话人相似性方面显著优于基线。
  • 贡献:
    1. 专为藏语多方言语音合成设计的少样本TTS系统。
    2. 公开发布由FMSD-TTS生成的大规模合成藏语语音语料库。
    3. 开源评估工具包,用于标准化评估说话人相似性、方言一致性和音频质量。

技术细节

  • 评论: 13页
  • 主题分类:
    • 语音 (cs.SD)
    • 人工智能 (cs.AI)
    • 计算与语言 (cs.CL)
    • 音频与语音处理 (eess.AS)
  • DOI: 10.48550/arXiv.2505.14351

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
FMSD-TTS数据集的构建采用了先进的少样本多说话人多方言文本到语音合成技术,针对藏语的三大方言(卫藏、安多和康巴)进行了优化。通过ECAPA-TDNN提取说话人嵌入和方言标签嵌入,结合创新的说话人-方言融合模块和方言专用动态路由网络(DSDR-Net),实现了高质量的语音合成。数据集的构建过程包括从超过210小时的原始录音中筛选和标注,最终生成了包含120,000个训练样本和900个测试样本的大规模平行语料库。
特点
FMSD-TTS数据集具有多方言、多说话人的特点,涵盖了藏语的三大主要方言,每个方言均包含大量语音样本。数据集通过DSDR-Net技术实现了方言特征的细粒度建模,确保了方言表达的一致性和说话人身份的保留。此外,数据集还提供了丰富的元数据,包括方言标签、说话人信息和语音时长等,为语音合成和方言转换任务提供了全面的支持。
使用方法
FMSD-TTS数据集适用于多种语音处理任务,包括文本到语音合成、语音到语音方言转换以及语音识别等。用户可以通过加载预训练的FMSD-TTS模型,输入目标文本和方言标签,生成高质量的方言语音。数据集还提供了评估工具包,支持对生成语音的自然度、说话人相似度和方言一致性进行标准化评估。具体使用方法可参考官方文档和示例代码。
背景与挑战
背景概述
FMSD-TTS数据集由电子科技大学与西藏大学的研究团队于2025年提出,旨在解决藏语多方言语音合成领域的数据稀缺问题。作为低资源语言,藏语三大方言(卫藏、安多、康巴)的并行语音语料库长期匮乏,严重制约了语音建模研究的进展。该数据集创新性地采用少样本学习框架,通过融合说话人与方言表征的深度神经网络,首次实现了基于有限参考音频的跨方言语音合成。其核心突破在于方言专业化动态路由网络(DSDR-Net)的设计,能够精准捕捉方言间细微的音韵差异,同时保持说话人身份特征。该数据集的发布为藏语语音识别、语音翻译及方言转换等任务提供了重要基础资源,推动了少数民族语言信息处理技术的发展。
当前挑战
FMSD-TTS数据集面临双重挑战:在领域问题层面,需克服藏语方言间复杂的音系差异,包括声调模式、音节时长和共振峰分布等声学特征的精细建模,同时解决低资源条件下跨方言说话人身份保持的难题;在构建过程中,面临真实方言数据采集困难、标注成本高昂的技术瓶颈,以及合成语音的方言区分度与自然度平衡问题。具体表现为:方言分类准确率需突破80%以保障语言学有效性,说话人相似度余弦分数需高于0.5维持身份一致性,且实时因子需控制在0.04以下满足实际应用需求。此外,传统多声码器架构导致的参数冗余和计算效率低下,也是构建轻量化合成系统的重要障碍。
常用场景
经典使用场景
FMSD-TTS数据集在藏语多方言语音合成领域具有经典的应用场景。该数据集通过整合Ü-Tsang、Amdo和Kham三大藏语方言的语音数据,为研究者提供了一个统一的平台,用于开发和评估多方言语音合成模型。其独特的少样本学习框架和动态路由网络设计,使得该数据集在模拟方言间细微的语音差异和保持说话人身份一致性方面表现出色。
解决学术问题
FMSD-TTS数据集有效解决了低资源语言语音合成中的多个关键学术问题。首先,它通过少样本学习框架缓解了藏语多方言语音数据稀缺的问题;其次,其创新的DSDR-Net结构成功捕捉了方言间细微的声学和语言学差异;最后,该数据集为研究说话人身份与方言特征的解耦提供了理想平台,推动了多方言语音合成理论的发展。
衍生相关工作
FMSD-TTS数据集衍生了一系列经典研究工作。在语音转换领域,研究者基于该数据集开发了DurFlex-EVC方言转换系统;在语音识别方向,该数据集被用于训练跨方言的端到端识别模型;此外,数据集还催生了专门针对藏语的多方言语音质量评估工具包,为后续研究提供了标准化评估基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Project Gutenberg

Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。

www.gutenberg.org 收录