Audio Turing Test (ATT-Corpus)
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
https://huggingface.co/ATT
下载链接
链接失效反馈官方服务:
资源简介:
Audio Turing Test (ATT) 是一个多维度的中文语料库数据集,旨在评估大型语言模型(LLM)为基础的中文语音合成系统的逼真程度。该数据集包含五个关键维度:特殊字符和数字、中英混合、副语言特征和情感、古典汉语诗歌/散文、多音字。数据集通过半自动化的方式生成,结合大型语言模型(LLM)的初步生成和调整,以及语言学专家的修订和验证。为了确保公平和可靠的评估,数据集被分为白盒和黑盒子集。该数据集可用于评估语音合成系统的自然度和逼真程度,并支持快速自动评估和加速TTS模型迭代。
Audio Turing Test (ATT) is a multi-dimensional Chinese corpus dataset aimed at evaluating the realism of Chinese speech synthesis systems based on Large Language Models (LLMs). This dataset covers five core dimensions: special characters and numbers, Chinese-English code-switching, paralinguistic features and emotions, classical Chinese poetry/prose, and polyphonic characters. The dataset is generated in a semi-automated manner, combining preliminary generation and adjustment via Large Language Models (LLMs) with revision and validation by linguistic experts. To ensure fair and reliable evaluation, the dataset is divided into white-box and black-box subsets. This dataset can be used to evaluate the naturalness and realism of speech synthesis systems, and supports rapid automatic evaluation and acceleration of TTS model iteration.
提供机构:
上海交通大学, 美团
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
ATT-Corpus数据集采用半自动化流程构建,结合了大语言模型(LLMs)的生成能力与语言学专家的验证。首先利用GPT-4o生成涵盖中文特殊字符、中英混用等五个维度的基础语料,随后通过DeepSeek-R1进行口语化改写以增强自然度。最终由四位语言学硕士完成标准化修订与交叉校验,并划分为公开的白盒子集和盲测的黑盒子集,确保评估公平性。音频样本通过25%的人工抽检验证合成成功率和一致性。
特点
该数据集聚焦中文语音合成的多维评估需求,包含特殊字符与数字、中英混用、副语言特征与情感、古典诗文及多音字五大核心维度。其创新性体现在:1)通过陷阱项(每10条含3条人工/缺陷样本)监控评估者注意力;2)采用三元标注(人类/不确定/机器)简化传统MOS评分的主观性;3)提供细粒度语音风格(20种)和子维度分析能力,如Seed-TTS的'Skye'音色在情感维度达0.517分,显著优于其他音色。
使用方法
使用ATT-Corpus需遵循三步协议:1)随机分配含陷阱项的音频给评估者,要求标注人类相似度并提交文字依据;2)通过注意力检查(正确识别陷阱项)和专家一致性审核筛选有效数据;3)计算人类相似度得分(HLS)。自动化评估工具Auto-ATT基于Qwen2-Audio-Instruct微调,支持快速预测HLS,其与人工评估的Kendall τ距离仅0.3316。数据集已开源于Hugging Face平台。
背景与挑战
背景概述
Audio Turing Test (ATT-Corpus)是由上海交通大学和美团的联合研究团队于2025年提出的中文语音合成评估数据集,旨在解决传统平均意见得分(MOS)在评估基于大语言模型(LLM)的文本转语音(TTS)系统时存在的主观性和解释性不足的问题。该数据集创新性地采用图灵测试范式,通过多维度设计(包括特殊字符与数字、中英混编、副语言特征、古典诗词和多音字等五个关键维度)构建评估语料库,并引入人类相似度评分(HLS)这一新指标。其核心研究问题聚焦于如何客观量化TTS系统生成语音的人类相似度,特别是在汉语这种具有复杂韵律特征的语言环境中。该数据集的发布为语音合成领域提供了首个专门针对中文场景的多维度评估基准,显著提升了高表现力TTS系统间的区分能力。
当前挑战
ATT-Corpus面临的主要挑战体现在两个层面:在领域问题层面,传统MOS评估对接近人类水平的高质量TTS系统区分度不足,且现有数据集缺乏对汉语特有要素(如声调变化、中英混编等)的系统性考察;在构建过程层面,需解决多维度语料平衡(确保各语言现象的合理分布)、陷阱项设计(用于检测评估者注意力)以及半自动化生成与人工校验的协同问题。特别地,汉语韵律的连续性特征和多音字的上下文敏感性对语音合成的自然度提出了更高要求,而构建能全面覆盖这些特征的评估体系需要精细的语言学设计和大量母语者的主观评估验证。
常用场景
经典使用场景
在语音合成技术的研究中,ATT-Corpus数据集被广泛用于评估基于大语言模型(LLM)的文本到语音(TTS)系统的人类相似性。其多维度的设计涵盖了特殊字符与数字、中英混合、副语言特征与情感、古典诗词以及多音字等关键维度,为研究者提供了一个全面且标准化的评估平台。通过模拟真实人类语音的复杂性,该数据集能够有效测试TTS系统在不同语言现象下的表现。
解决学术问题
ATT-Corpus解决了传统主观评估方法(如平均意见分数MOS)在评估高表现TTS系统时的局限性。传统方法因评分者主观性和环境不一致性而难以区分高质量系统之间的细微差异。ATT-Corpus通过引入多维度的语料库和基于图灵测试的评估协议,显著提高了评估的区分度和鲁棒性,为学术研究提供了更精确的性能对比工具。
衍生相关工作
ATT-Corpus的发布推动了多项相关研究,尤其是在自动评估和多语言语音合成领域。例如,基于其数据训练的Auto-ATT模型在语音人类相似性预测中表现出色,成为后续研究的基准工具。此外,该数据集的设计理念也被其他语言(如英语和日语)的TTS评估工作所借鉴,进一步扩展了其影响力。
以上内容由遇见数据集搜集并总结生成



