Audio-Turing-Test-Audios

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/meituan/Audio-Turing-Test-Audios

下载链接

链接失效反馈

官方服务：

资源简介：

音频图灵测试音频数据集是一个由文本转录生成的高质量、多维度的中文音频语料库，用于评估文本到语音系统的人性化和自然度。数据集包含104个用于评估时注意力检查的音频片段，包括35个有缺陷的合成音频片段和69个真实的人类录音。

The Audio Turing Test Audio Dataset is a high-quality, multi-dimensional Chinese audio corpus generated from text transcripts, which is used to evaluate the human-likeness and naturalness of text-to-speech systems. The dataset contains 104 audio clips for attention checks during evaluation, including 35 defective synthesized audio clips and 69 authentic human recordings.

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在语音合成领域，评估系统生成语音的自然度与人类相似性一直是研究重点。Audio-Turing-Test-Audios数据集的构建采用精心设计的双轨策略，通过文本转录生成104条中文音频样本，其中包含35条刻意合成存在明显缺陷的非自然语音，以及69条真实人类录音作为对照样本，这种对比结构旨在精准捕捉合成语音与人类语音的感知差异。

特点

该数据集作为语音合成评估的重要工具，其核心特点在于多维度的质量评估框架。所有音频均以高质量WAV格式呈现，确保了声学特征的完整性。数据集特别设计了注意力检测机制，通过植入存在明显瑕疵的合成样本与纯净的人类语音形成鲜明对比，为量化评估文本转语音系统的表现提供了可靠的基准参照。

使用方法

研究人员可借助配套的Auto-ATT自动评估模型，对目标语音合成系统生成的音频进行人类相似度评分。通过将评估结果与数据集中收录的顶级语音合成模型样本及陷阱音频进行横向对比，能够客观衡量系统性能。这种标准化评估流程为语音合成技术的迭代优化提供了有效的量化依据。

背景与挑战

背景概述

语音合成领域长期面临评估标准缺失的困境，美团团队于2025年发布的Audio-Turing-Test-Audios数据集开创性地构建了中文音频图灵测试基准。该数据集通过标准化人类评估协议与配套音频样本，致力于解决文本到语音系统在自然度与拟人化程度方面的量化评估难题，其创新性评估框架为语音合成技术的迭代优化提供了重要参照系。

当前挑战

在构建过程中需平衡合成音频的缺陷植入与真实语音的纯净度，确保35条缺陷样本能有效暴露系统弱点，同时69条真人录音需保持无干扰的原始状态。该数据集核心挑战在于建立可量化的拟人度评估标准，既要克服主观评价的不稳定性，又要应对中文语音韵律复杂性的技术瓶颈，最终形成具有判别力的多维度评估体系。

常用场景

经典使用场景

在语音合成技术评估领域，Audio-Turing-Test-Audios数据集被广泛用于实施图灵测试框架下的系统性能验证。研究者通过对比69条真实人声与35条存在明显缺陷的合成音频，能够精确量化文本转语音系统生成声音的自然度与人类相似性。这种标准化评估模式已成为检验语音合成模型核心能力的基准方法，特别是在中文语境下为跨模型性能比较提供了统一尺度。

衍生相关工作

基于该数据集衍生的Auto-ATT评估模型已成为语音合成领域的重要工具链。研究者通过Qwen2-Audio-7B构建的模型即评判员框架，实现了对合成音频的自动化质量评分。这套评估体系已被多个知名语音实验室采纳，并催生了针对方言合成、情感语音生成等细分场景的延伸研究，形成了以图灵测试为核心的语音质量评估方法论体系。

数据集最近研究