five

FMSD-TTS|藏语语音合成数据集|语音处理数据集

收藏
arXiv2025-05-20 更新2025-05-22 收录
藏语语音合成
语音处理
下载链接:
http://arxiv.org/abs/2505.14351v1
下载链接
链接失效反馈
资源简介:
FMSD-TTS数据集是由电子科技大学信息与软件工程学院、西藏大学信息科学技术学院和德克萨斯大学西南医学中心眼科学系合作生成的,旨在解决藏语资源匮乏的问题。该数据集包含超过210小时的录音,涵盖了藏语三大主要方言——卫藏、安多和康巴,共计1,500多位母语者的音频样本,数据集大小为120,000条。数据集的生成过程中采用了FMSD-TTS模型,该模型能够从有限的参考音频和显式方言标签中合成平行方言语音。数据集的创建过程采用了先进的技术手段,包括讲者-方言融合模块和方言专用动态路由网络(DSDR-Net),能够捕捉不同方言之间的细微声学和语言变化,同时保持讲者身份。FMSD-TTS数据集的发布为藏语语音处理领域提供了宝贵的新资源,有助于推动自动语音识别(ASR)、语音翻译(ST)和语音-语音方言转换(S2SDC)等领域的研究。
提供机构:
电子科技大学信息与软件工程学院, 西藏大学信息科学技术学院, 德克萨斯大学西南医学中心眼科学系
创建时间:
2025-05-20
原始信息汇总

数据集概述

基本信息

  • 标题: FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
  • arXiv标识符: arXiv:2505.14351v1
  • 提交日期: 2025年5月20日
  • 领域: 计算机科学 > 语音 (cs.SD)
  • 作者: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

摘要

  • 研究背景: 藏语是一种低资源语言,其三大主要方言(Ü-Tsang、Amdo和Kham)的平行语音语料库稀缺,限制了语音建模的进展。
  • 解决方案: 提出FMSD-TTS,一种少样本、多说话人、多方言的文本到语音合成框架,能够从有限的参考音频和明确的方言标签中合成平行方言语音。
  • 创新点:
    • 新颖的说话人-方言融合模块。
    • 方言专用动态路由网络(DSDR-Net),用于捕捉跨方言的细粒度声学和语言变化,同时保留说话人身份。
  • 评估: 通过客观和主观评估,FMSD-TTS在方言表达和说话人相似性方面显著优于基线。
  • 贡献:
    1. 专为藏语多方言语音合成设计的少样本TTS系统。
    2. 公开发布由FMSD-TTS生成的大规模合成藏语语音语料库。
    3. 开源评估工具包,用于标准化评估说话人相似性、方言一致性和音频质量。

技术细节

  • 评论: 13页
  • 主题分类:
    • 语音 (cs.SD)
    • 人工智能 (cs.AI)
    • 计算与语言 (cs.CL)
    • 音频与语音处理 (eess.AS)
  • DOI: 10.48550/arXiv.2505.14351

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
FMSD-TTS数据集的构建采用了先进的少样本多说话人多方言文本到语音合成技术,针对藏语的三大方言(卫藏、安多和康巴)进行了优化。通过ECAPA-TDNN提取说话人嵌入和方言标签嵌入,结合创新的说话人-方言融合模块和方言专用动态路由网络(DSDR-Net),实现了高质量的语音合成。数据集的构建过程包括从超过210小时的原始录音中筛选和标注,最终生成了包含120,000个训练样本和900个测试样本的大规模平行语料库。
特点
FMSD-TTS数据集具有多方言、多说话人的特点,涵盖了藏语的三大主要方言,每个方言均包含大量语音样本。数据集通过DSDR-Net技术实现了方言特征的细粒度建模,确保了方言表达的一致性和说话人身份的保留。此外,数据集还提供了丰富的元数据,包括方言标签、说话人信息和语音时长等,为语音合成和方言转换任务提供了全面的支持。
使用方法
FMSD-TTS数据集适用于多种语音处理任务,包括文本到语音合成、语音到语音方言转换以及语音识别等。用户可以通过加载预训练的FMSD-TTS模型,输入目标文本和方言标签,生成高质量的方言语音。数据集还提供了评估工具包,支持对生成语音的自然度、说话人相似度和方言一致性进行标准化评估。具体使用方法可参考官方文档和示例代码。
背景与挑战
背景概述
FMSD-TTS数据集由电子科技大学与西藏大学的研究团队于2025年提出,旨在解决藏语多方言语音合成领域的数据稀缺问题。作为低资源语言,藏语三大方言(卫藏、安多、康巴)的并行语音语料库长期匮乏,严重制约了语音建模研究的进展。该数据集创新性地采用少样本学习框架,通过融合说话人与方言表征的深度神经网络,首次实现了基于有限参考音频的跨方言语音合成。其核心突破在于方言专业化动态路由网络(DSDR-Net)的设计,能够精准捕捉方言间细微的音韵差异,同时保持说话人身份特征。该数据集的发布为藏语语音识别、语音翻译及方言转换等任务提供了重要基础资源,推动了少数民族语言信息处理技术的发展。
当前挑战
FMSD-TTS数据集面临双重挑战:在领域问题层面,需克服藏语方言间复杂的音系差异,包括声调模式、音节时长和共振峰分布等声学特征的精细建模,同时解决低资源条件下跨方言说话人身份保持的难题;在构建过程中,面临真实方言数据采集困难、标注成本高昂的技术瓶颈,以及合成语音的方言区分度与自然度平衡问题。具体表现为:方言分类准确率需突破80%以保障语言学有效性,说话人相似度余弦分数需高于0.5维持身份一致性,且实时因子需控制在0.04以下满足实际应用需求。此外,传统多声码器架构导致的参数冗余和计算效率低下,也是构建轻量化合成系统的重要障碍。
常用场景
经典使用场景
FMSD-TTS数据集在藏语多方言语音合成领域具有经典的应用场景。该数据集通过整合Ü-Tsang、Amdo和Kham三大藏语方言的语音数据,为研究者提供了一个统一的平台,用于开发和评估多方言语音合成模型。其独特的少样本学习框架和动态路由网络设计,使得该数据集在模拟方言间细微的语音差异和保持说话人身份一致性方面表现出色。
解决学术问题
FMSD-TTS数据集有效解决了低资源语言语音合成中的多个关键学术问题。首先,它通过少样本学习框架缓解了藏语多方言语音数据稀缺的问题;其次,其创新的DSDR-Net结构成功捕捉了方言间细微的声学和语言学差异;最后,该数据集为研究说话人身份与方言特征的解耦提供了理想平台,推动了多方言语音合成理论的发展。
衍生相关工作
FMSD-TTS数据集衍生了一系列经典研究工作。在语音转换领域,研究者基于该数据集开发了DurFlex-EVC方言转换系统;在语音识别方向,该数据集被用于训练跨方言的端到端识别模型;此外,数据集还催生了专门针对藏语的多方言语音质量评估工具包,为后续研究提供了标准化评估基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Retirement Longitudinal Study

中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。

charls.pku.edu.cn 收录

PAN-X

该数据集是Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)基准的一部分,名为WikiANN或PAN-X。它包含多种语言的维基百科文章,特别是瑞士四种最常用语言:德语、法语、意大利语和英语。每篇文章都使用LOC(位置)、PER(人物)和ORG(组织)标签在‘inside-outside-beginning’(IOB2)格式下进行了标注。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录