汉语TTS数据集

github2024-08-13 更新2024-08-20 收录

下载链接：

https://github.com/danielwei0214/Chinese-TTS-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

汉语TTS数据集是一个基于语言学本体构建的全面测试集，专为测试和评估文本到语音（TTS）前端系统的准确性和自然度而设计。数据集涵盖了汉语中的各种语音现象，包括普通话水平测试、汉语多音字、汉语音变、中英混杂文本以及特殊符号和数字的处理。

The Mandarin TTS Dataset is a comprehensive test set constructed based on linguistic ontologies, specifically designed for testing and evaluating the accuracy and naturalness of text-to-speech (TTS) front-end systems. The dataset covers various phonetic phenomena in Mandarin, including Mandarin Proficiency Test content, polyphonic Chinese characters, Mandarin phonetic sandhi, code-mixed Mandarin-English texts, as well as the processing of special symbols and numerals.

创建时间：

2024-08-13

原始信息汇总

汉语文本转语音（TTS）数据集

数据集介绍

汉语TTS数据集是一个基于语言学本体构建的全面测试集，专为测试和评估文本到语音（TTS）前端系统的准确性和自然度而设计。数据集涵盖了汉语中的各种语音现象，包括普通话水平测试、汉语多音字、汉语音变、中英混杂文本以及特殊符号和数字的处理。通过这一全面的测试集，TTS前端系统的潜在问题能够被系统性地发现和修正，确保生成的语音既自然又准确。

数据集用途

TTS系统评估与优化：系统性评估和优化TTS前端系统在多种语音现象下的性能，包括发音自然度和鲁棒性，确保高质量的语音输出。
发音准确性验证：通过对多音字、音变现象的测试，验证并修正TTS系统在复杂发音场景中的准确性，确保上下文敏感的正确发音。
特殊文本处理能力测试：评估TTS系统在处理中英混杂文本、特殊符号和数字等非标准文本时的表现，确保系统在多语言环境和边缘用例中的广泛适用性。
语言学研究与教育工具开发：支持语言学研究和教育软件开发，帮助分析汉语发音现象，并为学习者提供正确的发音指导。
语音交互系统测试：测试语音助手、智能设备和自动化客服系统中的TTS模块，确保其在多样化文本输入场景下的一致性和高质量表现。

文件描述

文件名	描述	大小
Chinese Mandarin Proficiency Test.json	包含普通话水平测试的文本，共计60篇。	中
Chinese Phonological Changes.json	包含汉语音变现象的文本，涵盖变调、轻声、儿化、啊音变等。	中
Chinese Polyphonic Characters.json	包含多音字的文本，基于字频语料库的统计。	中
Mixed Chinese and English Text.json	包含中英混杂文本，基于Google万亿字语料库的n-gram频率分析。	中
Special Symbols and Numbers.json	包含电话号码、度量单位、货币单位、时间日期、数学符号等特殊符号文本。	中
TTS_Test.json	从以上5部分抽取的1万字测试集。	小
TTS_Test.txt	包含TTS_Test.json文件中的文本内容。	小

数据集格式说明

TTS_Test.json 格式说明

数据包含以下部分：

数据部分	抽取方式	句子数	总字数	平均句长（字）
普通话水平测试	分类随机抽取	128	4000	31.25
汉语音变	分类随机抽取	148	3999	27.02
汉语多音字	按字频抽取	155	3984	25.70
特殊符号及数字	分类随机抽取	118	4000	26.67
中英混杂	按词频抽取	193	3993	20.69

{ "id": "000039", # 文本句子text的编号 "source": "汉语音变_轻声", # TTS测试集的组成部分，即重点测试的语音方面 "words": [ "打量 dǎliang", "关系 guānxi" ], # 词语列表，代表重点关注的发音 "text": "她用怀疑的眼神打量着他，两人之间的关系似乎变得微妙起来。", # 测试文本 "pinyin": "ta1 yong4 huai2 yi2 de yan3 shen2 da3 liang4 zhe ta1 ， liang3 ren2 zhi1 jian1 de guan1 xi4 si4 hu1 bian4 de2 wei1 miao4 qi3 lai2 。" # 文本对应的拼音，含声调 }

各部分数据集说明

文件名	数据集部分	内容	来源	目的	总句子数	总字数	平均句长（字）
Chinese Mandarin Proficiency Test.json	汉语普通话水平测试	包括来自普通话朗读作品的文本，共计60篇。	普通话学习网	综合检测TTS系统在标准普通话中的表现，包括发音准确性、语调自然度、节奏韵律等。	1013	31899	31.49
Chinese Polyphonic Characters.json	汉语多音字	涵盖每百万字出现10次以上的多音字，基于字频语料库（25亿字）。	现汉汉语第7版词典所有多音字统计，基于25亿字字频排序；进一步用于【大语言模型数据生成】	评估TTS系统在处理多音字时的准确性。多音字在汉语中非常常见，错误的发音会严重影响语音的自然度和可理解性。	402	10435	25.96
Chinese Phonological Changes.json	汉语音变	包括变调、轻声、儿化、啊音变等，覆盖汉语绝大多数音变情况。	多个版本的现代汉语教材音变归纳总结；进一步用于【大语言模型数据生成】	测试TTS系统在处理语流音变现象时的表现。汉语中的音变现象复杂多样，正确处理这些音变对于生成自然流畅的语音至关重要。	683	17645	25.83
Mixed Chinese and English Text.json	中英混杂	根据单词频率确定的中英混杂文本，基于Google万亿字语料库的n-gram频率分析。	中英混杂语料ASRU测试集（基于Google万亿字语料库的单词词频进行排序）	评估TTS系统在处理中英混杂文本时的表现。现代汉语中常常混杂使用英文单词，系统需要能够准确处理和发音这些混杂的文本，确保在不同语言之间的切换自然流畅。	3696	70717	19.13
Special Symbols and Numbers.json	特殊符号及数字	包括电话号码、度量单位、货币单位、时间日期、数学符号、其他等。	GitHub开源语料；进一步用于【大语言模型数据生成】	检测TTS系统在处理特殊符号和数字时的准确性和自然度。特别是对于应用场景中经常出现的数字和符号，系统需要能够正确识别和发音。	281	7308	26.01

数据集优势

基于语言学本体的全面覆盖：数据集从语言学本体角度出发，涵盖了汉语中的多音字、音变现象、中英混杂文本、特殊符号和数字，确保TTS系统在不同发音场景下具备全面的覆盖和测试精度。
高效发现与修正问题：数据集设计时平均句长小于30字，能更快发现问题（短句子更容易突出TTS系统的问题），更精准的定位问题（如一句话中就包含了多个多音字发音情况），提高测试效率（短句子生成的音频更短），达到更全面的测试覆盖率（用较少的文本覆盖多个测试方面）。
适应实际应用场景：数据集专注于汉语的关键发音和文本处理场景，包括标准普通话、多音字、音变现象、中英混杂文本以及特殊符号和数字的处理，确保TTS系统在广泛的实际应用中表现优异。
均衡的数据分布：数据集在构建过程中采用随机、分类和频率等逻辑筛选，确保数据分布均衡且全面，最大化测试覆盖率。

搜集汇总

数据集介绍

构建方式

汉语TTS数据集的构建基于语言学本体，全面覆盖了汉语中的多音字、音变现象、中英混杂文本以及特殊符号和数字的处理。数据集的构建过程包括从多个来源收集文本，如普通话水平测试、现代汉语教材、字频语料库和Google万亿字语料库等。通过分类随机抽取和频率分析，确保数据集在不同语音现象下的均衡分布和全面覆盖。此外，数据集的平均句长小于30字，旨在通过短句快速发现和定位TTS系统的问题，提高测试效率和覆盖率。

使用方法

汉语TTS数据集主要用于评估和优化文本到语音（TTS）前端系统的性能。用户可以通过加载数据集中的不同部分，如普通话水平测试、多音字、音变现象、中英混杂文本和特殊符号及数字，来系统性地测试TTS系统在各种语音现象下的表现。数据集支持多种文件格式，如JSON和TXT，便于用户根据需求进行数据加载和处理。通过使用该数据集，用户可以发现并修正TTS系统在复杂发音场景中的潜在问题，确保高质量的语音输出。

背景与挑战

背景概述

汉语TTS数据集是一个基于语言学本体构建的全面测试集，专为测试和评估文本到语音（TTS）前端系统的准确性和自然度而设计。该数据集由主要研究人员或机构在近年创建，旨在解决汉语中的多音字、音变现象、中英混杂文本以及特殊符号和数字的处理问题。通过这一全面的测试集，TTS前端系统的潜在问题能够被系统性地发现和修正，确保生成的语音既自然又准确，对提升汉语TTS系统的性能具有重要影响。

当前挑战

汉语TTS数据集在构建过程中面临多项挑战。首先，数据集需涵盖汉语中的多音字和音变现象，这些现象在汉语中非常复杂且常见，错误的发音会严重影响语音的自然度和可理解性。其次，处理中英混杂文本和特殊符号及数字时，系统需要能够准确识别和发音，确保在多语言环境和边缘用例中的广泛适用性。此外，数据集的设计需确保短句子的使用，以更快发现问题并提高测试效率。这些挑战要求数据集在语言学和工程实现上达到高度精确和全面覆盖。

常用场景

经典使用场景

汉语TTS数据集的经典使用场景在于评估和优化文本到语音（TTS）前端系统。通过涵盖汉语中的多音字、音变现象、中英混杂文本以及特殊符号和数字，该数据集能够系统性地评估TTS系统在多种语音现象下的性能，确保生成的语音既自然又准确。

解决学术问题

汉语TTS数据集解决了在汉语语音合成领域中常见的学术研究问题，如多音字发音的准确性、音变现象的处理以及中英混杂文本的流畅转换。通过提供全面的测试集，该数据集有助于学术界深入研究汉语发音现象，推动TTS技术的进步，提升语音合成的自然度和准确性。

实际应用

在实际应用中，汉语TTS数据集被广泛用于语音助手、智能设备和自动化客服系统中的TTS模块测试。通过确保这些系统在多样化文本输入场景下的一致性和高质量表现，该数据集提升了用户体验，促进了语音交互技术在实际应用中的普及和优化。

数据集最近研究