Bilingual Audio Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://index-tts.github.io
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从互联网收集的高质量中英双语音频数据,其中包含25,000小时中文音频和9,000小时英文音频。该数据集经过处理,利用自动语音识别技术生成了伪标签,并根据文本语义和语音停顿添加了标点符号,从而可以灵活控制停顿。总规模达到34,000小时(包括25,000小时中文和9,000小时英文),适用于文本到语音合成和声音克隆任务。



