AdvBench-Audio-GPT4o-TTS

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/ata990/AdvBench-Audio-GPT4o-TTS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言数据集，包含了阿拉伯语、德语、英语、法语、西班牙语和中文等语言的配置。每个配置都包括提示文本(prompt)、翻译文本(text_translated)和音频提示(audio_prompt)。音频提示的采样率为1600Hz或16000Hz。数据集被分割为多个部分，每个部分包含520个示例。

This is a multilingual dataset that supports configurations for languages including Arabic, German, English, French, Spanish, and Chinese. Each configuration includes prompt text (prompt), translated text (text_translated), and audio prompt (audio_prompt). The sampling rate of the audio prompts is either 1600Hz or 16000Hz. The dataset is divided into multiple splits, each containing 520 examples.

创建时间：

2025-08-05

原始信息汇总

数据集概述

基本信息

数据集名称: AdvBench-Audio-GPT4o-TTS
数据集地址: https://huggingface.co/datasets/ata990/AdvBench-Audio-GPT4o-TTS

数据集配置

数据集包含以下语言配置：

arb (阿拉伯语)
deu (德语)
eng (英语)
fa (波斯语)
fra (法语)
spa (西班牙语)
zh-CN (简体中文)

数据特征

所有配置包含以下特征：

prompt: 字符串类型
text_translated: 字符串类型
audio_prompt: 音频类型，采样率为1600或16000 Hz

数据分割

每个语言配置包含以下分割：

nova
alloy
echo
fable
onyx
shimmer

数据统计

arb

下载大小: 827935493 字节
数据集大小: 847676970.0 字节
每个分割样本数: 520

deu

下载大小: 865342207 字节
数据集大小: 891644106.0 字节
每个分割样本数: 520

eng

下载大小: 661838808 字节
数据集大小: 674732850.0 字节
每个分割样本数: 520

fa

下载大小: 990125820 字节
数据集大小: 1015298502.0 字节
每个分割样本数: 520

fra

下载大小: 854155574 字节
数据集大小: 888714876.0 字节
每个分割样本数: 520

spa

下载大小: 802868043 字节
数据集大小: 821784348.0 字节
每个分割样本数: 520

zh-CN

下载大小: 665198952 字节
数据集大小: 678764406.0 字节
每个分割样本数: 520

搜集汇总

数据集介绍

构建方式

AdvBench-Audio-GPT4o-TTS数据集通过多语言文本到语音转换技术构建，涵盖阿拉伯语、德语、英语、波斯语、法语、西班牙语和中文等多种语言。每种语言配置下包含520个样本，采样率为1600Hz或16000Hz，确保音频质量。数据集按不同语音风格（如nova、alloy等）划分，每个风格对应独立的音频文件，便于研究者针对特定语音特性进行分析和应用开发。

特点

该数据集以其多语言支持和高质量的音频采样著称，每种语言配置下均提供原始文本、翻译文本及对应音频文件，形成完整的文本-语音对。音频文件采用统一的采样率标准，确保数据一致性。不同语音风格的划分进一步丰富了数据集的多样性，为语音合成、语音识别等研究提供了丰富的实验材料。

使用方法

研究者可通过HuggingFace平台直接下载数据集，按语言配置和语音风格选择所需数据。数据集支持多种编程语言接口，便于集成到现有研究流程中。音频文件可直接用于语音合成模型的训练与评估，文本数据则可用于多语言自然语言处理任务。数据集的标准化格式确保了与主流机器学习框架的兼容性。

背景与挑战

背景概述

AdvBench-Audio-GPT4o-TTS数据集是近年来语音合成领域的重要资源，旨在推动多语言文本到语音（TTS）技术的研究与发展。该数据集由前沿研究团队构建，涵盖了包括英语、中文、德语、法语、西班牙语、阿拉伯语和波斯语在内的多种语言，每种语言均包含丰富的语音样本和对应的文本转录。其核心研究问题聚焦于如何通过高质量的多语言语音数据提升TTS模型的泛化能力和语音自然度。该数据集的发布为跨语言语音合成研究提供了重要支持，显著促进了语音技术在全球范围内的应用。

当前挑战

AdvBench-Audio-GPT4o-TTS数据集在解决多语言语音合成问题时面临诸多挑战。语音合成的自然度和情感表达在不同语言间存在显著差异，如何确保各语言语音质量的一致性成为关键难题。数据构建过程中，多语言文本的准确对齐与语音样本的采集需克服语言多样性和发音变体带来的复杂性。此外，数据集的规模与多样性之间的平衡亦需谨慎权衡，以确保模型训练的广泛适用性。采样率的统一与音频质量的标准化同样是构建过程中不可忽视的技术挑战。

常用场景

经典使用场景

在语音合成与自然语言处理领域，AdvBench-Audio-GPT4o-TTS数据集凭借其多语言音频与文本配对特性，成为评估文本到语音（TTS）系统性能的基准工具。研究者通过该数据集能够系统测试不同语音合成模型在多语言环境下的发音准确性、语调自然度以及跨语言迁移能力，尤其在处理阿拉伯语、德语等复杂语言结构时展现出独特价值。

实际应用

实际应用中，该数据集支撑了智能语音助手的多语言服务升级，使企业能够快速部署支持阿拉伯语、中文等复杂语言的TTS系统。教育科技公司利用其丰富的语音样本开发语言学习应用，医疗领域则基于该数据集构建无障碍语音交互系统，显著提升了非英语用户的数字服务体验。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言语音克隆系统VALL-E-X和语音安全检测框架AntiFake，前者实现了仅需3秒样本即可模仿目标语音的技术突破，后者则开创了针对深度伪造语音的检测新范式。这些成果均发表在ACL、INTERSPEECH等顶级会议，推动了语音技术领域的创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集