FMSD-TTS|藏语语音合成数据集|语音处理数据集
收藏数据集概述
基本信息
- 标题: FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation
- arXiv标识符: arXiv:2505.14351v1
- 提交日期: 2025年5月20日
- 领域: 计算机科学 > 语音 (cs.SD)
- 作者: Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi
摘要
- 研究背景: 藏语是一种低资源语言,其三大主要方言(Ü-Tsang、Amdo和Kham)的平行语音语料库稀缺,限制了语音建模的进展。
- 解决方案: 提出FMSD-TTS,一种少样本、多说话人、多方言的文本到语音合成框架,能够从有限的参考音频和明确的方言标签中合成平行方言语音。
- 创新点:
- 新颖的说话人-方言融合模块。
- 方言专用动态路由网络(DSDR-Net),用于捕捉跨方言的细粒度声学和语言变化,同时保留说话人身份。
- 评估: 通过客观和主观评估,FMSD-TTS在方言表达和说话人相似性方面显著优于基线。
- 贡献:
- 专为藏语多方言语音合成设计的少样本TTS系统。
- 公开发布由FMSD-TTS生成的大规模合成藏语语音语料库。
- 开源评估工具包,用于标准化评估说话人相似性、方言一致性和音频质量。
技术细节
- 评论: 13页
- 主题分类:
- 语音 (cs.SD)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 音频与语音处理 (eess.AS)
- DOI: 10.48550/arXiv.2505.14351
相关资源
- 全文链接:

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
GHCN
GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。
www.ncei.noaa.gov 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录