EchoX-Dialogues

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/KurtDu/EchoX-Dialogues

下载链接

链接失效反馈

官方服务：

资源简介：

EchoX-Dialogues是一个专注于语音到文本(S2T)转换的语音对话数据集，用于训练EchoX模型。该数据集包含大量经过合成、清洗和重写的语音对话数据。数据集中的语音全部为合成语音，文本部分来源于公共数据集。大部分对话回合包含自动语音识别(ASR)和词错误率(WER)标签，可用于基于WER的过滤。

创建时间：

2025-09-06

原始信息汇总

EchoX-Dialogues 数据集概述

基本信息

数据集名称：EchoX-Dialogues
许可证：Apache-2.0
版本：1.0.0
主页：https://huggingface.co/datasets/KurtDu/EchoX-Dialogues
语言：英语（单语）
任务类别：自动语音识别、文本转语音、问答

数据集摘要

该数据集包含用于训练 EchoX 模型的大部分语音对话数据（仅限语音到文本设置）。输入语音完全由合成生成，文本来源于公共数据集，经过多阶段清理和重写。大多数对话轮次包含 ASR/WER 标签，用于过滤。

内容与统计

子集名称	时长（小时）	说明
Magpie-Pro-Speech+	327.0441	源自 Magpie 风格的指令数据，经过清理和重写，语音完全合成
sharechatx	44.5105	社交/休闲对话，经过清理和重写，语音完全合成
总计	371.5546	语音理解到文本输出

数据格式

每个样本为一个多轮对话，包含以下字段：

id：唯一标识符
conversations：对话轮次列表，每轮包含：
- from：说话者（"user" 或 "assistant"）
- value：该轮次的参考文本
- audio：该轮次波形文件的路径（存在时）
- asr（可选）：该轮次音频的 ASR 转录文本
- wer（可选）：asr 与 value 之间的 WER

快速开始

python from datasets import load_dataset ds = load_dataset("KurtDu/EchoX-Dialogues", split="train")

相关资源

扩展数据集：EchoX-Dialogues-Plus（https://huggingface.co/datasets/KurtDu/EchoX-Dialogues-Plus）
相关模型：EchoX-8B（https://huggingface.co/FreedomIntelligence/EchoX-8B）

搜集汇总

数据集介绍

构建方式

在语音对话数据构建领域，EchoX-Dialogues采用多阶段处理流程。数据集文本内容源自公开语料，经过严格的清洗与语义重构处理，确保语言质量与逻辑连贯性。所有语音数据均通过合成技术生成，每个对话回合均标注自动语音识别转录文本及词错误率指标，为数据质量评估提供量化依据。

特点

该数据集核心特征体现在多模态对话结构，包含371.55小时的高质量语音-文本配对数据。其独特价值在于每个对话回合均配备ASR转录与WER标注，支持基于词错误率的智能过滤。数据覆盖指令遵循、社交对话等多种场景，采用单音色合成语音，确保声学特征的一致性，为语音理解模型训练提供标准化数据支撑。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，利用内置过滤功能基于WER阈值筛选高质量样本。典型应用流程包括加载音频路径、读取波形数据，并结合现代深度学习框架进行端到端语音识别模型训练。数据集支持多轮对话上下文建模，适用于语音到文本转换、对话系统等研究方向。

背景与挑战

背景概述

EchoX-Dialogues数据集由FreedomIntelligence团队于2025年构建，专注于语音对话理解领域。该数据集作为EchoX模型训练的核心语料，涵盖了371.55小时的合成语音对话数据，主要应用于自动语音识别、文本转语音及问答任务。其设计初衷在于解决多轮对话中语音到文本的转换问题，通过多阶段清洗与重写技术提升语料质量，显著推动了对话式人工智能在语音交互场景下的发展。

当前挑战

该数据集需应对语音识别领域的高噪声环境与多轮对话连贯性难题，具体包括合成语音的自然度与文本对齐精度问题。构建过程中面临公开语料清洗的复杂性，需通过多轮重写消除语义歧义；同时，合成语音与文本的时序对齐要求极高，ASR转录与WER标注的误差控制成为关键技术挑战。

常用场景

经典使用场景

在语音对话系统研究中，EchoX-Dialogues数据集被广泛应用于语音到文本的转换任务。该数据集通过合成语音输入与精心清洗的文本输出配对，为多轮对话场景提供了高质量的基准数据。研究者利用其包含的371小时语音文本对齐样本，能够有效训练端到端的语音识别模型，特别是在指令跟随和社交对话场景中表现出色。

衍生相关工作

该数据集催生了系列创新研究，包括EchoX-8B多模态对话模型和Magpie-Pro-Speech+扩展项目。研究者基于其WER过滤机制开发了动态数据清洗管道，启发了跨语言语音合成的新方法。相关成果已应用于语音对齐算法改进和端到端对话系统的架构优化，推动了语音处理领域的标准化进程。

数据集最近研究