EchoX-Dialogues-Plus

Hugging Face2025-09-07 更新2025-09-08 收录

下载链接：

https://huggingface.co/datasets/KurtDu/EchoX-Dialogues-Plus

下载链接

链接失效反馈

官方服务：

资源简介：

EchoX-Dialogues-Plus 是一个基于 EchoX-Dialogues 数据集扩展的语音对话语料库。它被用于训练端到端的语音对话模型 EchoX-8B。该数据集包含两种设置：语音到语音（S2S）对话和语音到文本（S2T）对话。数据集中的语音是由数据集创建者合成的，而文本则来自公共数据集。README 文件还提供了数据集的内容、统计信息、数据格式、加载和过滤方法、起源和许可、安全和局限性以及如何引用数据集的信息。

创建时间：

2025-09-06

原始信息汇总

EchoX-Dialogues-Plus 数据集概述

基本信息

名称：EchoX-Dialogues-Plus
版本：1.0.0
许可证：Apache-2.0
主页：https://huggingface.co/datasets/KurtDu/EchoX-Dialogues-Plus

核心分类

任务类别：自动语音识别、文本转语音、问答
语言：英语
多语言性：单语
模态：音频、语音、文本
规模：100万到1000万样本

数据来源

VITA-MLLM/AudioQA-1M
Anthropic/hh-rlhf
omni-chat/sharechatx
IVLLab/MultiDialog
Magpie-Align/Magpie-Llama-3.3-Pro-1M-v0.1
WizardLMTeam/WizardLM_evol_instruct_V2_196k

标注信息

标注创建者：机器生成
标注类型：合成语音、ASR/WER标签、多阶段文本清理/重写

数据集规模

语音到语音（S2S）

AudioQA：2,508.046小时
HH-RLHF-Speech：3,002.500小时
sharechatx：600.000小时
MultiDialogue：300.000小时
S2S总计：6,410.546小时

语音到文本（S2T）

Magpie-Pro-Speech+：1,412.940小时
WizardLM-Evol-Speech：88.000小时
S2T总计：1,500.940小时

总时长：7,911.486小时

数据格式

每个样本为多轮对话，包含配对的音频和文本。典型字段包括：

from：用户或助手
value：参考文本
audio：音频波形路径
asr：自动转录文本
wer：词错误率
transcription：对齐/调试用转录文本

改进特性

更大规模，增加子集和更广泛的对话意图
支持语音到语音和语音到文本两种任务
一致的单一音色助手语音
统一的文本清理和重写流程

使用限制

无真人语音克隆
可能存在残留噪声或敏感内容
存在滥用风险
领域偏差

搜集汇总

数据集介绍

构建方式

在语音对话系统研究领域，EchoX-Dialogues-Plus数据集通过整合六个权威公开语料库构建而成，包括VITA-MLLM/AudioQA-1M和Anthropic/hh-rlhf等高质量文本资源。采用多阶段清洗与重写流程对原始文本进行标准化处理，所有语音数据均通过合成技术生成，确保助理音色的一致性。数据集构建过程中为大多数对话轮次添加了自动语音识别转录和词错率标注，为质量控制和数据筛选提供了可靠依据。

特点

该数据集最显著的特征在于同时支持语音到语音和语音到文本两种对话模式，总时长达到7911小时，规模居同类数据集前列。所有输出语音均采用单一音色合成，有效避免了真实人声克隆带来的伦理问题。数据集提供了细粒度的质量标注信息，包括每轮对话的自动转录文本和词错率指标，支持研究者根据不同的质量阈值灵活筛选训练数据。多源文本的融合使数据集覆盖问答、安全对齐、社交对话等多重场景，具有丰富的语言多样性。

使用方法

研究者可通过Hugging Face datasets库直接加载该数据集，利用内置的过滤函数根据词错率阈值快速筛选高质量样本。对于语音到语音任务，可提取助理轮次的音频与文本对应关系；对于语音到文本任务，则可构建用户输入语音与助理文本响应的配对数据。数据集支持全局筛选和角色特定筛选两种模式，用户可根据实验需求选择保留任意轮次符合质量要求或所有轮次均符合要求的对话样本。加载后的音频文件可通过标准音频处理库进行进一步解码和处理。

背景与挑战

背景概述

EchoX-Dialogues-Plus数据集由FreedomIntelligence团队于2025年构建，旨在推动端到端语音对话系统的研究。该数据集基于多个公开文本语料库，通过多阶段清洗与重写流程，结合全合成语音生成技术，构建了涵盖语音到语音（S2S）和语音到文本（S2T）的双任务对话语料。其核心研究问题聚焦于如何在单一音色条件下实现高质量的多轮语音对话生成与理解，为语音交互模型提供了大规模、多场景的训练基础，显著提升了对话系统在真实环境中的泛化能力。

当前挑战

该数据集致力于解决语音对话系统中多模态对齐与生成一致性的核心挑战，包括语音识别误差累积、跨模态语义保持以及单音色语音生成的自然度优化。构建过程中面临合成语音质量与文本语义匹配的精度控制问题，需通过多级ASR/WER标注实现数据过滤；同时，上游文本源的异构性与版权约束要求复杂的清洗与重写策略，以确保数据合规性与语言质量。此外，大规模语音合成的计算成本与时序对齐难题亦是关键制约因素。

常用场景

经典使用场景

在语音对话系统研究中，EchoX-Dialogues-Plus数据集被广泛应用于端到端语音对话模型的训练与评估。该数据集支持语音到语音和语音到文本两种对话模式，其单一声纹的合成语音输出为模型训练提供了稳定性保障。多轮对话结构和丰富的领域覆盖使其成为测试模型在复杂交互场景中表现的重要基准，尤其在一致性保持和错误率控制方面具有显著价值。

衍生相关工作

基于该数据集衍生的经典工作包括EchoX-8B端到端语音对话模型，该模型充分利用数据集的单一声纹特性实现了高质量的语音生成。此外，多个研究团队利用其丰富的语音文本配对数据开发了新型语音识别算法和对话生成系统。这些工作不仅推动了语音对话技术的发展，还为多模态人工智能系统的研究提供了重要参考框架。

数据集最近研究