CALLS
收藏arXiv2023-05-23 更新2024-07-24 收录
下载链接:
https://sython.org/Corpus/STUDIES-2/
下载链接
链接失效反馈官方服务:
资源简介:
CALLS是一个专注于客户中心电话交流的日语情感对话语音数据集,由东京大学和LINE公司合作创建。该数据集包含3272条语音记录,主要分为两个子集:情况导向的投诉处理和积极的专注倾听。数据集的创建过程涉及模拟客户中心的对话场景,通过众包方式收集对话内容,并由同一位女性演讲者录制。CALLS数据集旨在推动多领域情感对话语音合成(EDSS)的研究,特别是在正式和礼貌对话领域的应用,以解决如何根据不同对话领域适当控制情感表达的问题。
CALLS is a Japanese emotional conversational speech dataset focused on customer service phone calls, co-developed by the University of Tokyo and LINE Corporation. This dataset contains 3272 speech recordings, and is mainly divided into two subsets: task-oriented complaint handling and active attentive listening. The dataset was created by simulating customer service dialogue scenarios, collecting conversational content via crowdsourcing, and having all recordings conducted by the same female speaker. The CALLS dataset aims to advance research in multi-domain emotional dialogue speech synthesis (EDSS), especially for applications in formal and polite dialogue domains, to solve the problem of how to appropriately control emotional expressions based on different dialogue domains.
提供机构:
东京大学, LINE公司
创建时间:
2023-05-23
搜集汇总
数据集介绍

构建方式
在语音合成研究领域,构建具有领域适应性的共情对话语音数据集是推动技术发展的关键。CALLS数据集的构建采用了模拟客服中心电话对话的策略,通过精心设计的对话场景和众包方式收集文本内容。研究团队首先从现有投诉语料库中筛选出包含用户建议和背景信息的投诉条目,以此为基础构建了160个对话情境。随后,通过微任务众包平台邀请参与者撰写对话文本,确保内容覆盖投诉处理和积极倾听两种子集。语音录制环节邀请了与STUDIES语料库相同的女性说话人,在专业录音室中以客服人员的身份演绎对话,最终形成了包含3272条说话人语音的语料库。
特点
CALLS数据集在共情对话语音研究领域展现出鲜明的特点,其核心在于模拟了客服中心这一正式且礼貌的对话场景。与现有STUDIES语料库相比,该数据集在语音的韵律特征上表现出较低的方差,说话人的语调变化更为收敛,体现了正式场合下共情表达的克制性。文本特征分析进一步揭示了其与校园对话领域在语义空间上的明显区隔。数据集精心平衡了投诉处理与积极倾听两种对话类型,并标注了说话人和对话者的情感标签,为探究不同领域下共情语音风格的差异提供了结构化数据基础。
使用方法
该数据集主要应用于多领域共情对话语音合成的研究与开发。使用者可以将其作为独立的训练数据,构建针对客服领域的语音合成模型,探究条件特征如说话人情感、对话者情感及对话上下文对生成语音自然度与风格相似度的影响。同时,研究者可将其与STUDIES等不同领域的共情对话语料库结合,用于训练多领域语音合成模型,以考察领域差异对模型性能的影响,并探索如领域对抗训练等方法来显式地建模领域特性。数据集的开放共享旨在为构建适应不同社交场景的友好语音代理提供关键资源。
背景与挑战
背景概述
在语音合成与自然语言处理领域,共情对话语音合成(EDSS)作为一项前沿技术,旨在构建能够根据对话情境调整说话风格的友好语音代理。2023年,东京大学与LINE公司的研究团队联合推出了CALLS日语共情对话语音语料库,该语料库聚焦于客服中心的投诉处理与积极倾听场景,扩展了此前STUDIES语料库仅涵盖师生对话的局限性。通过采用与STUDIES相同的女性说话者模拟客服操作员角色,CALLS不仅丰富了共情对话的领域多样性,还为多领域EDSS研究提供了关键数据支持,推动了语音合成技术在正式、礼貌对话情境中的应用发展。
当前挑战
CALLS语料库面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,共情对话语音合成需克服不同对话领域(如正式客服与休闲师生场景)中说话风格表达度的差异,这导致在多领域混合训练时合成语音质量提升存在偏差,难以均衡捕捉各类情境的共情特征。构建过程中,语料库通过众包模拟电话对话脚本,需确保对话内容的真实性与情感标注的准确性,同时避免涉及个人隐私与敏感信息;此外,语料库仅包含单一说话者且未录制客户语音,限制了对话交互的完整性与模型训练的多样性。
常用场景
经典使用场景
在语音合成与对话系统领域,CALLS数据集为研究多领域共情对话语音合成提供了关键资源。该数据集聚焦于客户服务中心的模拟电话对话场景,通过记录同一女性说话者作为客服人员的语音,捕捉了在正式、礼貌语境下的共情表达风格。其经典使用场景在于训练和评估能够适应不同对话领域的语音合成模型,特别是那些需要处理客户投诉和积极倾听任务的智能语音代理。
解决学术问题
CALLS数据集有效解决了共情对话语音合成研究中领域单一性的局限。它扩展了现有STUDIES语料库仅涵盖师生非正式对话的不足,为探索正式领域中的共情语音表达提供了数据基础。该数据集通过分析语音的韵律特征和文本差异,揭示了不同对话领域对表达强度的影响,从而促进了多领域共情语音合成技术的发展,为构建更具适应性和自然度的语音交互系统奠定了理论基础。
衍生相关工作
CALLS数据集衍生了一系列相关研究,特别是在多领域共情语音合成模型的探索上。基于该数据集与STUDIES语料库的对比分析,研究者们开发了结合领域对抗训练的方法,以处理不同对话领域间的表达差异。此外,该数据集还启发了对语音韵律控制、上下文感知合成以及跨领域数据增强技术的研究,推动了语音合成技术在共情交互中的进一步应用与创新。
以上内容由遇见数据集搜集并总结生成



