five

PolyAI/evi

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PolyAI/evi
下载链接
链接失效反馈
官方服务:
资源简介:
EVI是一个具有挑战性的多语言口语对话数据集,包含5,506个英语、波兰语和法语的对话,可用于知识基础的注册、验证和识别的口语对话系统的基准测试和开发。
提供机构:
PolyAI
原始信息汇总

数据集概述

基本信息

数据集内容

  • 对话数量: 5,506
  • 语言标识: en, en-GB, fr, fr-FR, pl
  • 数据结构:
    • 数据实例: 包含语言ID、对话ID、说话者ID、回合ID、目标配置文件ID、ASR转录、ASR n-best转录、音频文件路径和音频对象。
    • 数据字段: 包括语言、对话ID、说话者ID、回合ID、目标配置文件ID、ASR转录、ASR n-best、路径和音频。
    • 数据分割: 每个配置仅包含一个“测试”分割,约1,800个对话。

使用示例

py from datasets import load_dataset evi = load_dataset("PolyAI/evi", "en-GB") # 用于英国英语

下载所有地区的数据使用:

evi = load_dataset("PolyAI/evi", "all")

查看结构

print(evi)

许可证信息

所有数据集均根据Creative Commons license (CC-BY)授权。

引用信息

@inproceedings{Spithourakis2022evi, author = {Georgios P. Spithourakis and Ivan Vuli{c} and Michal{} Lis and I~{n}igo Casanueva and Pawel{} Budzianowski}, title = {{EVI}: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based Enrolment, Verification, and Identification}, year = {2022}, note = {Data available at https://github.com/PolyAI-LDN/evi-paper}, url = {https://arxiv.org/abs/2204.13496}, booktitle = {Findings of NAACL (publication pending)} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作