GEM/CrossWOZ

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/CrossWOZ

下载链接

链接失效反馈

官方服务：

资源简介：

CrossWOZ是一个中文多领域任务导向对话数据集，包含6K个对话会话和102K个话语，涵盖酒店、餐厅、景点、地铁和出租车等5个领域。约60%的对话具有跨领域的用户目标，鼓励对话中的自然领域转换。该数据集包含丰富的对话状态和对话行为注释，适用于对话响应生成等任务。

CrossWOZ is a Chinese multi-domain task-oriented dialogue dataset consisting of 6K dialogue sessions and 102K utterances, covering 5 domains including hotels, restaurants, attractions, subways, and taxis. Approximately 60% of the dialogues have cross-domain user goals, which encourage natural domain transitions during conversations. This dataset contains rich annotations of dialogue states and dialogue acts, and is applicable to tasks such as dialogue response generation.

提供机构：

GEM

原始信息汇总

数据集概述：CrossWOZ

数据集描述

名称: CrossWOZ
语言: 中文
许可证: Apache-2.0
数据来源: 原始数据
任务类别: 对话响应生成
数据集大小: 未知
多语言性: 否
包含语言: 中文
数据集概况: CrossWOZ是一个大规模的中文跨领域任务导向对话数据集，包含6K对话会话和102K语句，涉及5个领域：酒店、餐厅、景点、地铁和出租车。约60%的对话具有跨领域的用户目标，促进领域间的依赖和对话中领域的自然过渡。

数据集结构

数据字段

gem_id (string): GEM-CrossWOZ-{split}-{id}
dialog_id (string): 对话ID
sys_id (string): 系统标注者ID
usr_id (string): 用户标注ID
type (string): 对话类型
task description (list of strings): 用户目标的自然语言描述
goal (list of tuples): 包含子目标ID、领域名称、槽名称、约束/要求、是否在前述回合提及
messages (list of dict): 对话轮次，每个轮次包含内容、角色、对话行为、用户状态、系统初始状态和系统状态
final_goal (list of tuples): 对话结束时的用户状态/目标

示例实例

json { "dialog_id": "2303", "final_goal": [...], "gem_id": "GEM-CrossWOZ-test-0", "goal": [...], "messages": {...} }

数据集用途

主要任务: 对话响应生成
通信目标: 根据对话上下文和数据库搜索结果生成响应
数据集创建者: Qi Zhu, Kaili Huang, Zheng Zhang, Xiaoyan Zhu, Minlie Huang from CoAI group, Tsinghua University
资金来源: 中国国家自然科学基金，中国国家重点研发计划
联系人: Qi Zhu (邮箱: zhuq96@gmail.com)

搜集汇总

数据集介绍

构建方式

CrossWOZ数据集是由清华大学CoAI研究组构建的一个大规模中文跨领域任务型对话数据集，包含6K对话会话和102K条对话语句，覆盖酒店、餐厅、景点、地铁和出租车等五个领域。数据集通过Wizard-of-Oz方法收集，对话中的用户目标具有跨领域依赖性，能够促进对话在领域间的自然过渡。

使用方法

使用CrossWOZ数据集时，可以通过HuggingFace的datasets库加载。用户可以访问数据集的对话会话、用户和系统的对话行为、对话状态等字段，以进行模型训练和评估。数据集的多元化和丰富的注释为研究提供了便利，可以促进任务型对话系统的比较研究。

背景与挑战

背景概述

CrossWOZ数据集，由清华大学CoAI研究组创建，是一个大规模的中文跨领域任务导向对话数据集。该数据集包含6K对话会话和102K条发言，涵盖了酒店、餐厅、景点、地铁和出租车等五个领域。CrossWOZ数据集的一个显著特点是，约60%的对话具有跨领域用户目标，这有助于促进领域间的依赖性并鼓励在对话中自然地跨领域转换。该数据集的创建旨在推动多领域对话模型的进步，并缓解中文任务导向数据集的短缺问题。

当前挑战

CrossWOZ数据集在构建过程中遇到的挑战主要包括：确保跨领域对话的自然性和连贯性，以及处理用户目标的跨领域依赖性。此外，构建一个包含丰富对话状态和对话行为注释的大规模数据集，对于研究人员来说也是一个挑战。在实际应用中，如何利用CrossWOZ数据集有效地进行对话状态跟踪、策略学习和用户模拟等任务，也是当前面临的挑战之一。

常用场景

经典使用场景

CrossWOZ数据集是首个大规模中文跨领域任务导向对话数据集，包含6K对话会话和102K语句，覆盖酒店、餐厅、景点、地铁和出租车五个领域。该数据集的经典使用场景在于支持跨领域对话模型的研究与开发，特别是在处理用户跨领域需求和自然对话过渡方面具有显著优势。

解决学术问题

CrossWOZ数据集解决了中文任务导向对话系统中缺乏大规模跨领域数据的问题，为研究对话状态跟踪、策略学习、用户模拟等任务提供了丰富的注释数据和基准模型。

实际应用

在实际应用中，CrossWOZ数据集可用于开发智能客服系统、语音助手、在线聊天机器人等，提升系统在多领域任务处理和自然语言理解方面的能力。

数据集最近研究