FMSD-TTS|藏语语音合成数据集|语音处理数据集
收藏数据集概述
基本信息
- 标题: FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
- arXiv标识符: arXiv:2505.14351v1
- 提交日期: 2025年5月20日
- 领域: 计算机科学 > 语音 (cs.SD)
- 作者: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi
摘要
- 研究背景: 藏语是一种低资源语言,其三大主要方言(Ü-Tsang、Amdo和Kham)的平行语音语料库稀缺,限制了语音建模的进展。
- 解决方案: 提出FMSD-TTS,一种少样本、多说话人、多方言的文本到语音合成框架,能够从有限的参考音频和明确的方言标签中合成平行方言语音。
- 创新点:
- 新颖的说话人-方言融合模块。
- 方言专用动态路由网络(DSDR-Net),用于捕捉跨方言的细粒度声学和语言变化,同时保留说话人身份。
- 评估: 通过客观和主观评估,FMSD-TTS在方言表达和说话人相似性方面显著优于基线。
- 贡献:
- 专为藏语多方言语音合成设计的少样本TTS系统。
- 公开发布由FMSD-TTS生成的大规模合成藏语语音语料库。
- 开源评估工具包,用于标准化评估说话人相似性、方言一致性和音频质量。
技术细节
- 评论: 13页
- 主题分类:
- 语音 (cs.SD)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 音频与语音处理 (eess.AS)
- DOI: 10.48550/arXiv.2505.14351
相关资源
- 全文链接:

China Health and Retirement Longitudinal Study
中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。
charls.pku.edu.cn 收录
PAN-X
该数据集是Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME)基准的一部分,名为WikiANN或PAN-X。它包含多种语言的维基百科文章,特别是瑞士四种最常用语言:德语、法语、意大利语和英语。每篇文章都使用LOC(位置)、PER(人物)和ORG(组织)标签在‘inside-outside-beginning’(IOB2)格式下进行了标注。
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录