five

ShareChatX|语音对话数据集|音频处理数据集

收藏
arXiv2025-01-03 更新2025-01-06 收录
语音对话
音频处理
下载链接:
https://sharechatx.github.io/
下载链接
链接失效反馈
资源简介:
ShareChatX是由浙江大学和美团联合创建的大规模语音对话数据集,旨在解决现有语音对话数据集在规模和场景多样性上的不足。该数据集包含947,236条对话,涵盖了情感、音频事件和音乐等多种复杂场景。数据通过大语言模型生成对话脚本,并结合可控的文本到语音合成模型生成语音对话。数据集的应用领域主要集中在提升语音对话系统在复杂场景中的表现,特别是在涉及音频和音乐的场景中。通过合成数据与真实数据的结合,ShareChatX为训练更强大的语音对话模型提供了丰富的数据支持。
提供机构:
浙江大学, 美团
创建时间:
2025-01-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
ShareChatX数据集的构建基于大规模合成数据,旨在增强对话模型在多样化场景中的表现。首先,利用大语言模型生成针对不同场景的对话脚本,随后通过高保真、可控的文本到语音(TTS)模型将这些脚本转换为语音对话。为确保数据质量,采用了模型和人工双重验证机制,确保语音对话的自然性和逻辑性。此外,数据集还集成了音频事件和背景音乐,进一步丰富了对话的多模态信息。
特点
ShareChatX数据集的特点在于其覆盖了广泛的对话场景,包括情感对话、音频事件对话和音乐背景对话。数据集通过合成数据的方式,解决了现有对话数据集在规模和多样性上的不足。具体而言,ShareChatX包含了三个子集:-Emotion(情感对话)、-Audio(音频事件对话)和-Music(音乐背景对话),每个子集都针对特定的对话场景进行了优化。数据集的大规模和多样性使其能够有效支持复杂对话场景下的模型训练。
使用方法
ShareChatX数据集的使用方法主要包括模型训练和评估。在训练阶段,研究人员可以利用数据集中的多样化对话场景进行多模态对话模型的训练,特别是针对情感、音频事件和音乐背景的对话生成任务。在评估阶段,数据集可用于测试模型在复杂对话场景下的表现,特别是情感识别、音频事件理解和音乐背景对话生成的能力。此外,数据集还支持对比实验,帮助研究人员探索合成数据与真实数据在训练中的最佳平衡。
背景与挑战
背景概述
随着大语言模型的快速发展,研究人员开发了越来越先进的语音对话系统,能够与人类进行自然对话。然而,这些系统在处理现实世界对话的复杂性方面仍存在困难,尤其是涉及音频事件、音乐背景和情感表达的场景。现有的对话数据集在规模和场景多样性方面存在局限,导致系统难以全面理解多模态信息。为此,浙江大学的研究团队提出了ShareChatX数据集,这是首个涵盖多样化场景的大规模语音对话数据集。该数据集通过合成数据增强对话模型,旨在解决现有数据集在情感、音频和音乐场景中的不足。ShareChatX的推出为语音对话系统的研究提供了新的数据支持,推动了多模态对话模型的发展。
当前挑战
构建ShareChatX数据集面临的主要挑战包括:1) 数据规模与多样性的平衡。语音对话数据的收集成本高且复杂,尤其是涉及多轮交互和情感变化的场景,难以获取高质量数据。2) 隐私与版权问题。语音数据包含个人生物信息,如音色,匿名化处理可能降低数据质量,同时隐私问题限制了大规模数据的使用。3) 特定场景数据的稀缺性。某些特定场景(如紧急情况或高风险环境)的对话数据难以获取,这些场景通常涉及强烈的情感和独特的音频条件,难以通过现有技术模拟。这些挑战限制了语音对话系统在复杂场景中的表现,促使研究人员通过合成数据来弥补数据不足。
常用场景
经典使用场景
ShareChatX数据集广泛应用于语音对话系统的开发与优化,特别是在处理复杂对话场景时表现出色。该数据集通过合成数据模拟了多种真实世界中的对话情境,包括情感表达、音频事件和背景音乐等,为研究人员提供了一个全面的多模态对话数据平台。通过使用ShareChatX,研究人员能够训练出更具鲁棒性和适应性的语音对话模型,从而提升系统在复杂环境下的表现。
衍生相关工作
ShareChatX数据集催生了一系列相关研究工作,特别是在多模态语音对话系统领域。基于该数据集,研究人员开发了OmniChat系统,该系统通过异构特征融合模块优化了不同对话场景下的特征选择,显著提升了系统的对话生成能力。此外,ShareChatX还为其他研究提供了数据基础,如情感识别模型的改进、音频事件检测算法的优化以及背景音乐对对话影响的研究。这些工作进一步推动了语音对话系统在多模态理解和复杂场景处理方面的技术进步。
数据集最近研究
最新研究方向
随着大语言模型的快速发展,语音对话系统在复杂场景中的应用成为研究热点。ShareChatX作为首个大规模、多场景的语音对话数据集,涵盖了情感、音频事件和音乐等多种复杂情境,显著提升了对话系统的多样性和鲁棒性。当前研究聚焦于如何通过合成数据增强模型在真实场景中的表现,特别是在情感识别、音频事件理解和音乐背景下的对话生成方面。OmniChat系统的提出,通过异构特征融合模块优化了不同场景下的特征选择,进一步推动了语音对话系统在复杂环境中的应用。此外,研究还探讨了合成数据与真实数据的最佳平衡,为未来语音对话系统的开发提供了重要参考。
相关研究论文
  • 1
    OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios浙江大学, 美团 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据,包括有功功率(AP,kW)、历史温度(T,℃)、相对湿度(RH,%)、全球水平辐照度(GHI,Wh/m²)和漫射水平辐照度(DHI,Wh/m²)。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录