PolyAI/evi
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PolyAI/evi
下载链接
链接失效反馈官方服务:
资源简介:
EVI是一个具有挑战性的多语言口语对话数据集,包含5,506个英语、波兰语和法语的对话,可用于知识基础的注册、验证和识别的口语对话系统的基准测试和开发。
提供机构:
PolyAI
原始信息汇总
数据集概述
基本信息
- 名称: EVI
- 语言: 多语言(英语、法语、波兰语)
- 许可证: CC-BY-4.0
- 论文: EVI: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based Enrolment, Verification, and Identification
- GitHub仓库: Github
数据集内容
- 对话数量: 5,506
- 语言标识: en, en-GB, fr, fr-FR, pl
- 数据结构:
- 数据实例: 包含语言ID、对话ID、说话者ID、回合ID、目标配置文件ID、ASR转录、ASR n-best转录、音频文件路径和音频对象。
- 数据字段: 包括语言、对话ID、说话者ID、回合ID、目标配置文件ID、ASR转录、ASR n-best、路径和音频。
- 数据分割: 每个配置仅包含一个“测试”分割,约1,800个对话。
使用示例
py from datasets import load_dataset evi = load_dataset("PolyAI/evi", "en-GB") # 用于英国英语
下载所有地区的数据使用:
evi = load_dataset("PolyAI/evi", "all")
查看结构
print(evi)
许可证信息
所有数据集均根据Creative Commons license (CC-BY)授权。
引用信息
@inproceedings{Spithourakis2022evi, author = {Georgios P. Spithourakis and Ivan Vuli{c} and Michal{} Lis and I~{n}igo Casanueva and Pawel{} Budzianowski}, title = {{EVI}: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based Enrolment, Verification, and Identification}, year = {2022}, note = {Data available at https://github.com/PolyAI-LDN/evi-paper}, url = {https://arxiv.org/abs/2204.13496}, booktitle = {Findings of NAACL (publication pending)} }



