ShareChatX

Name: ShareChatX
Creator: 浙江大学, 美团
Published: 2025-01-03 01:58:23
License: 暂无描述

arXiv2025-01-03 更新2025-01-06 收录

下载链接：

https://sharechatx.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ShareChatX是由浙江大学和美团联合创建的大规模语音对话数据集，旨在解决现有语音对话数据集在规模和场景多样性上的不足。该数据集包含947,236条对话，涵盖了情感、音频事件和音乐等多种复杂场景。数据通过大语言模型生成对话脚本，并结合可控的文本到语音合成模型生成语音对话。数据集的应用领域主要集中在提升语音对话系统在复杂场景中的表现，特别是在涉及音频和音乐的场景中。通过合成数据与真实数据的结合，ShareChatX为训练更强大的语音对话模型提供了丰富的数据支持。

ShareChatX is a large-scale spoken dialogue dataset jointly created by Zhejiang University and Meituan, aiming to address the shortcomings of existing spoken dialogue datasets in terms of scale and scenario diversity. This dataset contains 947,236 dialogue sessions, covering various complex scenarios such as emotions, audio events and music. The dialogue scripts are generated by large language models and combined with controllable text-to-speech (TTS) synthesis models to produce the final spoken dialogues. The primary application of this dataset is to enhance the performance of spoken dialogue systems in complex scenarios, especially those involving audio and music. By combining synthetic and real-world data, ShareChatX provides rich data support for training more robust spoken dialogue models.

提供机构：

浙江大学, 美团

创建时间：

2025-01-03

搜集汇总

数据集介绍

构建方式

ShareChatX数据集的构建基于大规模合成数据，旨在增强对话模型在多样化场景中的表现。首先，利用大语言模型生成针对不同场景的对话脚本，随后通过高保真、可控的文本到语音（TTS）模型将这些脚本转换为语音对话。为确保数据质量，采用了模型和人工双重验证机制，确保语音对话的自然性和逻辑性。此外，数据集还集成了音频事件和背景音乐，进一步丰富了对话的多模态信息。

特点

ShareChatX数据集的特点在于其覆盖了广泛的对话场景，包括情感对话、音频事件对话和音乐背景对话。数据集通过合成数据的方式，解决了现有对话数据集在规模和多样性上的不足。具体而言，ShareChatX包含了三个子集：-Emotion（情感对话）、-Audio（音频事件对话）和-Music（音乐背景对话），每个子集都针对特定的对话场景进行了优化。数据集的大规模和多样性使其能够有效支持复杂对话场景下的模型训练。

使用方法

ShareChatX数据集的使用方法主要包括模型训练和评估。在训练阶段，研究人员可以利用数据集中的多样化对话场景进行多模态对话模型的训练，特别是针对情感、音频事件和音乐背景的对话生成任务。在评估阶段，数据集可用于测试模型在复杂对话场景下的表现，特别是情感识别、音频事件理解和音乐背景对话生成的能力。此外，数据集还支持对比实验，帮助研究人员探索合成数据与真实数据在训练中的最佳平衡。

背景与挑战

背景概述

随着大语言模型的快速发展，研究人员开发了越来越先进的语音对话系统，能够与人类进行自然对话。然而，这些系统在处理现实世界对话的复杂性方面仍存在困难，尤其是涉及音频事件、音乐背景和情感表达的场景。现有的对话数据集在规模和场景多样性方面存在局限，导致系统难以全面理解多模态信息。为此，浙江大学的研究团队提出了ShareChatX数据集，这是首个涵盖多样化场景的大规模语音对话数据集。该数据集通过合成数据增强对话模型，旨在解决现有数据集在情感、音频和音乐场景中的不足。ShareChatX的推出为语音对话系统的研究提供了新的数据支持，推动了多模态对话模型的发展。

当前挑战

构建ShareChatX数据集面临的主要挑战包括：1) 数据规模与多样性的平衡。语音对话数据的收集成本高且复杂，尤其是涉及多轮交互和情感变化的场景，难以获取高质量数据。2) 隐私与版权问题。语音数据包含个人生物信息，如音色，匿名化处理可能降低数据质量，同时隐私问题限制了大规模数据的使用。3) 特定场景数据的稀缺性。某些特定场景（如紧急情况或高风险环境）的对话数据难以获取，这些场景通常涉及强烈的情感和独特的音频条件，难以通过现有技术模拟。这些挑战限制了语音对话系统在复杂场景中的表现，促使研究人员通过合成数据来弥补数据不足。

常用场景

经典使用场景

ShareChatX数据集广泛应用于语音对话系统的开发与优化，特别是在处理复杂对话场景时表现出色。该数据集通过合成数据模拟了多种真实世界中的对话情境，包括情感表达、音频事件和背景音乐等，为研究人员提供了一个全面的多模态对话数据平台。通过使用ShareChatX，研究人员能够训练出更具鲁棒性和适应性的语音对话模型，从而提升系统在复杂环境下的表现。

衍生相关工作

ShareChatX数据集催生了一系列相关研究工作，特别是在多模态语音对话系统领域。基于该数据集，研究人员开发了OmniChat系统，该系统通过异构特征融合模块优化了不同对话场景下的特征选择，显著提升了系统的对话生成能力。此外，ShareChatX还为其他研究提供了数据基础，如情感识别模型的改进、音频事件检测算法的优化以及背景音乐对对话影响的研究。这些工作进一步推动了语音对话系统在多模态理解和复杂场景处理方面的技术进步。

数据集最近研究