EVI
收藏arXiv2022-04-28 更新2024-06-21 收录
下载链接:
https://github.com/PolyAI-LDN/evi-paper
下载链接
链接失效反馈官方服务:
资源简介:
EVI数据集是由位于英国伦敦的PolyAI Limited创建的多语言口语对话任务数据集,包含5,506个对话,涵盖英语、波兰语和法语。该数据集专注于基于知识的注册、验证和识别任务,旨在支持个性化和隐私导向的服务,通过口语对话系统进行用户身份的注册、验证和识别。数据集的创建过程涉及使用faker工具随机生成本地依赖的配置文件,并利用Google的特定语言语音识别和文本转语音技术。该数据集的应用领域包括自动化呼叫中心,以提高对话系统的安全性和用户体验。
The EVI dataset is a multilingual spoken dialogue task dataset developed by PolyAI Limited, headquartered in London, UK. It comprises 5,506 dialogues across English, Polish and French. This dataset centers on knowledge-based user identity registration, verification and recognition tasks, with the goal of supporting personalized and privacy-preserving services through spoken dialogue systems. The dataset's development process entails using the Faker tool to randomly generate locally tailored configuration files, and utilizing Google's language-specific speech recognition and text-to-speech technologies. Its application domains include automated call centers, where it helps enhance the security and user experience of dialogue systems.
提供机构:
PolyAI Limited
创建时间:
2022-04-28
搜集汇总
数据集介绍

构建方式
EVI数据集的构建始于知识库的生成,利用faker工具为英语、波兰语和法语三个语区分别随机创建包含邮编、姓名和出生日期的用户档案。随后,通过众包平台招募讲者,要求其扮演特定档案角色,与基于确定性策略的语音对话系统进行交互,系统按固定顺序询问三项个人信息,并最多进行三次重试。为丰富数据多样性,研究团队巧妙运用启动效应和趋同效应,通过改变日期显示格式和拼写提示策略,引导讲者产生多样化的语言表达。对话数据包含原始音频、ASR的n-best转录列表及提示变体,最终收集了总计5506段对话。
特点
该数据集的核心特点在于其多语言覆盖与任务导向性,覆盖英、波、法三种语言,专门服务于基于知识的注册、验证和识别三类对话任务。数据构建中引入的启动与趋同效应显著提升了讲者行为的多样性,例如日期表达方式的差异和拼写策略的模仿,使得数据集能更真实地反映实际交互中的语言变异性。此外,数据集包含丰富的元信息,如讲者标识、档案标识、音频及多候选转录,为研究多轮口语理解、模糊匹配和跨语言处理提供了独特且具有挑战性的测试平台。
使用方法
使用EVI数据集时,研究者可分别针对注册、验证和识别任务设计并评估系统。注册任务需从对话中提取信息构建用户档案,验证任务则比较用户提供信息与已存档案的匹配度,而识别任务需从知识库中检索最匹配的档案。论文提供了基于ASR、NLU和模糊逻辑的基线模型及评估协议,例如使用谨慎型或搜索型NLU进行值提取,以及利用模糊逻辑融合多槽位得分。数据集还支持分析单轮与多轮信息提取的差异,并可通过调整验证阈值或识别参数来探索系统安全性与可用性的权衡。
背景与挑战
背景概述
EVI数据集由PolyAI Limited的研究团队于2022年创建,核心研究人员包括Georgios P. Spithourakis、Ivan Vulić、Michał Lis、Iñigo Casanueva和Paweł Budzianowski。该数据集聚焦于知识驱动的注册、验证与识别三大任务,旨在为面向任务的语音对话系统提供个性化且隐私保护的服务支撑。EVI数据集包含5,506段多轮对话,覆盖英式英语、波兰语和法语三种语言,填补了多语言语音对话系统中身份认证任务的空白。其发布推动了对话人工智能在自动化客服领域的应用,并为多语言自然语言处理研究设立了基准,对语音交互安全性与用户体验的平衡探索具有深远影响。
当前挑战
EVI数据集面临的挑战涵盖领域问题与构建过程两方面。在领域层面,知识驱动的注册、验证与识别任务需解决语音识别误差、多轮口语理解歧义以及模糊匹配与检索的准确性,尤其多语言环境下不同语种的音系丰富性加剧了抽取难度。构建过程中,众包工作者模拟虚构身份的行为与真实用户存在差异,且固定策略的对话流程可能诱发用户简化或挫败等非自然反应;同时,利用启动效应与趋同效应引导语言变异性虽增加了数据多样性,却难以完全复现真实场景的复杂性。此外,隐私伦理限制导致无法使用真实个人信息,进一步制约了数据生态的生态效度。
常用场景
经典使用场景
在面向任务的口语对话系统研究领域,EVI数据集为知识驱动的身份注册、验证与识别任务提供了标准化的评测平台。该数据集涵盖英、法、波兰三种语言,包含5506段人机对话,每段对话均涉及用户通过语音提供邮政编码、姓名及出生日期等个人信息。研究者利用该数据集可系统性地评估口语理解模块在嘈杂语音环境下的多轮信息抽取能力,尤其适用于探索自动语音识别误差对下游身份认证流程的影响。数据集通过精心设计的启动效应与趋同效应策略,诱发了多样化的口语表达行为,为构建鲁棒的多轮对话状态追踪模型提供了丰富的训练与测试素材。
实际应用
EVI数据集所定义的身份认证任务在工业界具有广泛的应用前景,尤其适用于银行电话客服、包裹追踪系统及账户安全验证等场景。在实际部署中,系统需在自然对话流中无缝完成用户身份注册、验证与识别,而无需打断用户的交互体验。该数据集模拟了真实呼叫中心中用户可能出现的口音差异、拼写歧义及重复确认等复杂情况,为开发高安全性与高可用性兼备的语音身份认证系统提供了关键测试基准。基于该数据集训练的系统能够有效降低错误拒绝率与错误接受率,在金融、医疗等隐私敏感领域具有重要的商业价值。
衍生相关工作
EVI数据集的发布催生了多项相关研究工作,主要集中在多语言口语理解增强、模糊检索算法优化以及端到端身份认证流水线设计等方向。后续研究借鉴了该数据集对启动效应与趋同效应的建模思路,探索了如何通过对话策略动态引导用户提供更清晰的信息表达。部分工作进一步扩展了模糊逻辑框架,提出了基于深度学习的可微分模糊匹配算子,显著提升了在噪声语音条件下的身份识别准确率。此外,该数据集还启发了关于多轮对话中错误传播机制的研究,推动了面向任务型对话系统的因果推断与鲁棒性分析方法的进展。
以上内容由遇见数据集搜集并总结生成



