GEM/dstc10_track2_task2

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/dstc10_track2_task2

下载链接

链接失效反馈

官方服务：

资源简介：

DSTC10 Track2 Task 2数据集继承自DSTC9 Track1任务，参与者需要实现基于知识的对话系统。训练集继承自DSTC9挑战，属于书面领域，而测试集是新收集的，包含噪声ASR转录。该数据集有助于构建基于知识的对话响应生成模型。数据集包含对话轮次、知识库信息、响应等字段，结构兼容MultiWox 2.X数据。

提供机构：

GEM

原始信息汇总

数据集概述

基本信息

名称: dstc10_track2_task2
语言: 英语 (en)
许可证: Apache License 2.0 (apache-2.0)
任务类别: 对话响应生成 (dialog-response-generation)
数据来源: 原始数据 (original)

数据集描述

概述: DSTC10 Track2 Task 2 继承自 DSTC9 Track1 任务，要求参与者实现基于知识的对话系统。训练数据来自 DSTC9 挑战，为书面领域，而测试集为新收集的嘈杂 ASR 转录本。
目的: 用于构建基于知识的对话响应生成模型。

数据结构

数据字段: 包括对话ID、参与者、文本、ASR系统输出的多个最佳假设及其分数、知识定义及其元数据等。
数据分割: 包括训练集、验证集和测试集。

使用目的

主要任务: 对话响应生成
通信目标: 探索在口语数据上训练的对话模型的鲁棒性，涉及多领域对话状态跟踪和基于非结构化知识的对话建模。

数据集创建与贡献

创建者: Seokhwan Kim, Yang Liu, Di Jin, Alexandros Papangelis, Karthik Gopalakrishnan, Behnam Hedayatnia, Dilek Hakkani-Tur (Amazon Alexa AI)
资助: Amazon
数据卡贡献者: Alexandros Papangelis (Amazon Alexa AI), Di Jin (Amazon Alexa AI), Nico Daheim (RWTH Aachen University)

数据集在GEM中的角色

评估能力: 测量模型理解和生成基于知识响应的能力。
独特性: 包含转录的口语交互，用于评估模型在口语输入上的表现。

数据集详情

数据集链接

主数据卡: GEM Website

数据集下载与文档

网页: GitHub
论文: 链接

联系信息

联系人: Seokhwan Kim
邮箱: seokhwk@amazon.com

数据集评估

评估指标: BLEU-1, BLEU-2, BLEU-3, BLEU-4, METEOR, ROGUE-1, ROGUE-2, ROGEE-L
评估方式: 基于任务论文中定义的自动指标，针对检测、选择和生成三个任务进行评估。

数据集结构与分割

结构确定: 与MultiWox 2.X数据保持兼容。
分割标准: 训练集来自DSTC9 Track 1，包含书面对话；验证和测试集为新收集的口语数据，包含嘈杂的ASR转录本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集