EchoX-Dialougues

Name: EchoX-Dialougues
Creator: FreedomAI
Published: 2025-09-13 21:46:24
License: 暂无描述

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/EchoX-Dialougues

下载链接

链接失效反馈

官方服务：

资源简介：

EchoX-Dialogues发布了EchoX训练数据的大部分，这些数据用于语音到文本(S2T)设置。所有输入语音都是合成的，文本来源于经过多阶段清洗和重写的公开资料。大多数对话回合包含自动语音识别(ASR)和单词错误率(WER)标签，用于基于WER的质量过滤。

提供机构：

FreedomAI

创建时间：

2025-09-06

原始信息汇总

EchoX-Dialogues 数据集概述

基本信息

数据集名称：EchoX-Dialogues
许可证：Apache-2.0
版本：1.0.0
语言：英语（单语）
模态：音频、文本

任务类别

自动语音识别（ASR）
文本转语音（TTS）
问答

数据集摘要

EchoX-Dialogues 发布了 EchoX 在语音到文本（S2T）设置下的大部分训练数据。所有输入语音均为合成语音；文本来源于公共资源，经过多阶段清理和重写。大多数对话轮次包含 ASR/WER 标签，用于质量过滤。

内容与统计

子集	时长（小时）	说明
Magpie-Pro-Speech+	327.0441	Magpie 风格的指令数据，经过清理/重写；合成语音
sharechatx	44.5105	社交/休闲对话，经过清理/重写；合成语音
总计	371.5546	语音理解 → 文本输出（S2T）

数据模式

每个示例为一个多轮对话，包含以下字段：

id：唯一标识符
conversations：对话轮次列表；每轮包括：
- from："user" 或 "assistant"
- value：该轮次的参考文本
- audio：该轮次音频波形的路径（存在时）
- asr（可选，大多数轮次存在）：该轮次音频的 ASR 转录
- wer（可选，大多数轮次存在）：asr 与 value 之间的 WER
- 某些子集可能包含辅助字段（如 transcription）用于对齐/调试

引用

bibtex @misc{zhang2025echoxmitigatingacousticsemanticgap, title = {EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs}, author = {Yuhao Zhang and Yuhao Du and Zhanchen Dai and Xiangnan Ma and Kaiqi Kou and Benyou Wang and Haizhou Li}, year = {2025}, eprint = {2509.09174}, archivePrefix= {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2509.09174} }

搜集汇总

数据集介绍

构建方式

在语音对话系统研究领域，EchoX-Dialogues数据集通过多阶段处理流程构建而成。其文本素材源自公开数据源，经过深度清洗与语义重构，确保语言质量与逻辑连贯性；所有输入语音均采用合成技术生成，形成语音-文本配对数据。每个对话回合均标注自动语音识别转录文本及词错误率指标，为数据质量评估提供量化依据。

特点

该数据集核心特征体现在其多模态对话结构与高质量标注体系。数据集包含37万小时合成语音与重构文本的平行数据，涵盖指令执行与社会化对话等多场景交互模式。独特之处在于绝大多数对话回合均提供ASR转录与WER指标，支持基于词错误率的动态质量过滤。数据组织形式采用多轮对话结构，每条样本包含用户与助手角色交替的完整会话轨迹。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，利用内置过滤功能实现数据精炼。典型应用流程包括：基于WER阈值自动筛选高质量样本，通过音频路径调用波形数据，构建语音到文本的端到端训练管道。数据集主要服务于语音识别、语音合成及对话系统训练，尤其适用于探究声学与语义间隙消减的前沿课题。

背景与挑战

背景概述

语音对话系统作为人机交互的核心领域，长期面临着声学信号与语义理解之间的鸿沟问题。EchoX-Dialogues数据集由FreedomIntelligence团队于2025年构建，旨在为语音到文本（S2T）的大语言模型训练提供高质量的多轮对话数据。该数据集通过合成语音与经过多阶段清洗重构的文本数据相结合，显著提升了语音理解模型在语义对齐方面的性能，为跨模态对话系统的发展奠定了重要基础。

当前挑战

该数据集致力于解决语音到文本转换中声学-语义鸿沟的核心挑战，包括合成语音的自然度与文本语义的匹配精度问题。在构建过程中，团队需要克服多源文本数据的清洗与重构复杂性，确保合成语音与文本间的时间对齐和内容一致性，同时通过ASR/WER标注实现数据质量的精细化控制，这些技术难点对数据集的可靠性和实用性提出了较高要求。

常用场景

经典使用场景

在语音对话系统研究中，EchoX-Dialogues数据集主要应用于多轮对话场景下的语音到文本转换任务。该数据集通过合成语音输入与经过多阶段清洗的文本输出配对，为研究者提供了高质量的语音-文本对齐样本。其经典应用包括训练端到端的语音识别模型、评估自动语音识别系统在对话语境下的性能，以及构建基于语音输入的对话生成系统。数据集包含371小时的多轮对话数据，涵盖指令跟随和社交对话等多种交互模式，为语音语言模型训练提供了丰富资源。

实际应用

在实际应用层面，该数据集为智能语音助手、车载语音系统和客服机器人等场景提供了训练数据支撑。其合成的多轮对话数据能够模拟真实交互环境，帮助开发更自然的语音交互界面。数据集包含的社交对话和指令跟随数据特别适用于个性化语音代理的开发，在智能家居控制、语音导航系统和无障碍通信工具等领域具有直接应用价值。通过WER质量控制机制，确保了实际部署场景中的语音识别可靠性。

衍生相关工作

基于该数据集衍生的经典工作包括EchoX系列语音语言模型，如EchoX-8B和EchoX-3B模型架构。这些模型采用回声训练机制缓解声学-语义间隙，在语音到语音的对话生成任务中表现出色。相关研究还催生了扩展数据集EchoX-Dialogues-Plus，支持更完整的语音到语音训练范式。该数据集的发布推动了多模态对话系统的新范式探索，为后续语音大语言模型的研究提供了基准数据集和训练方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集