five

ConvLab/crosswoz

收藏
Hugging Face2022-11-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConvLab/crosswoz
下载链接
链接失效反馈
官方服务:
资源简介:
CrossWOZ是首个大规模中文跨领域任务导向对话数据集,包含6K个对话会话和102K个话语,覆盖5个领域:酒店、餐馆、景点、地铁和出租车。数据集提供了丰富的对话状态和对话行为标注,包括用户和系统双方的标注。此外,还提供了用户模拟器和多个基准模型,以促进研究人员在此数据集上比较和评估他们的模型。数据集的使用需要先安装ConvLab-3平台,然后可以通过提供的代码加载数据集、本体和数据库。

CrossWOZ is the first large-scale Chinese cross-domain task-oriented dialogue dataset. It contains 6,000 dialogue sessions and 102,000 utterances, covering five domains: hotels, restaurants, attractions, subways and taxis. The dataset provides rich annotations of dialogue states and dialogue acts for both users and the system. In addition, user simulators and multiple baseline models are provided to help researchers compare and evaluate their models on this dataset. To use the dataset, users need to first install the ConvLab-3 platform, and then the dataset, ontology and database can be loaded via the provided code.
提供机构:
ConvLab
原始信息汇总

数据集概述

名称: CrossWOZ

语言: 中文

许可: Apache-2.0

多语言性: 单语种

大小: 1K<n<10K

任务类别: 对话系统

数据集详情

内容: CrossWOZ 是一个大规模的中文跨领域任务导向对话数据集,包含6K对话会话和102K语句,涉及5个领域:酒店、餐厅、景点、地铁和出租车。数据集还包含了丰富的对话状态和对话行为注释,以及用户和系统两方面的信息。

数据转换:

  • 原始数据通过运行 python preprocess.py 进行转换。
  • 主要变化包括添加领域、槽位和意图的简单描述,调整对话行为中的意图和领域,以及转换用户目标和系统状态。

注释: 包括用户目标、用户状态、对话行为、状态、数据库查询和数据库结果。

支持的任务

  • NLU(自然语言理解)
  • DST(对话状态跟踪)
  • Policy(策略)
  • NLG(自然语言生成)
  • E2E(端到端)
  • 用户模拟器

数据分割

分割 对话数 语句数 平均语句数 平均令牌数 平均领域数 分类槽匹配(状态) 分类槽匹配(目标) 分类槽匹配(对话行为) 非分类槽跨度(对话行为)
训练 5012 84674 16.89 20.55 3.02 99.67 - 100 94.39
验证 500 8458 16.92 20.53 3.04 99.62 - 100 94.36
测试 500 8476 16.95 20.51 3.08 99.61 - 100 94.85
全部 6012 101608 16.9 20.54 3.03 99.66 - 100 94.43

领域: 包括景点、餐馆、酒店、地铁、出租车和General。

引用信息

@article{zhu2020crosswoz, author = {Qi Zhu and Kaili Huang and Zheng Zhang and Xiaoyan Zhu and Minlie Huang}, title = {Cross{WOZ}: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset}, journal = {Transactions of the Association for Computational Linguistics}, year = {2020} }

许可信息

Apache License, Version 2.0

搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统研究领域,构建高质量的多领域对话数据集是推动技术发展的关键。CrossWOZ数据集的构建采用了经典的Wizard-of-Oz实验范式,通过精心设计的任务流程,模拟真实用户与专家操作员之间的多轮交互。其原始语料经过系统的预处理流程,包括对对话行为、领域状态及用户目标的标准化标注转换。具体而言,构建过程将用户目标转化为结构化的状态表示,并依据对话行为类型(如二元、分类及非分类)对系统响应进行规范化处理,同时整合了数据库查询与结果,确保了数据在语义与结构上的一致性,为模型训练提供了可靠的监督信号。
特点
作为首个大规模中文跨领域任务导向对话数据集,CrossWOZ以其丰富的多领域覆盖与精细的标注体系脱颖而出。该数据集涵盖了酒店、餐饮、景点、地铁及出租车五大核心领域,包含超过六千个对话会话与十万余条语句,平均每个对话涉及三个以上领域,体现了复杂的跨领域交互特性。其标注信息不仅包括用户与系统两侧的对话状态和对话行为,还提供了用户目标、数据库查询结果等多层次语义信息。特别值得注意的是,数据集中对分类槽位与非分类槽位进行了区分处理,并提供了高覆盖率的槽位值匹配与文本跨度标注,为对话理解与状态跟踪模型的细粒度评估奠定了坚实基础。
使用方法
为有效利用CrossWOZ数据集进行研究与开发,使用者需首先安装ConvLab-3对话系统平台。通过平台提供的工具函数,可便捷加载数据集、本体知识库及数据库信息。典型的使用流程包括导入相应模块并调用`load_dataset`、`load_ontology`及`load_database`函数,以获取结构化的对话数据与领域资源。该数据集支持对话系统中自然语言理解、状态跟踪、策略学习及端到端建模等多个核心任务的评估与基准测试。研究人员可依据提供的标准化数据划分进行模型训练与验证,并参考详尽的统计指标进行性能分析,从而推动跨领域任务对话技术的创新与比较。
背景与挑战
背景概述
在任务导向对话系统研究领域,跨领域对话建模一直是核心难题,尤其在中文语境下,缺乏大规模高质量数据集制约了相关技术的发展。CrossWOZ数据集由清华大学人工智能研究院于2020年发布,作为首个大规模中文跨领域Wizard-of-Oz对话数据集,其包含涵盖酒店、餐饮、景点、地铁及出租车五大领域的六千个对话会话与十万余条语句。该数据集通过精细的对话状态与对话行为标注,为跨领域对话状态跟踪、自然语言理解及端到端对话系统研究提供了重要基础,显著推动了中文对话人工智能的技术演进与学术探索。
当前挑战
CrossWOZ数据集致力于解决跨领域任务导向对话系统的核心挑战,包括多领域对话状态的一致性维护、用户意图的精准识别以及领域间知识的有效迁移。在构建过程中,研究人员面临诸多困难:跨领域对话语料的收集与标注需确保领域间逻辑连贯性与数据平衡性;对话状态与对话行为的双重标注要求极高的语义一致性与标注规范统一;此外,数据预处理中需处理非分类槽位的值抽取与多值状态的空间分隔表示,这些技术细节均对数据质量与后续模型性能产生深远影响。
常用场景
经典使用场景
在任务型对话系统研究中,CrossWOZ数据集常被用于构建和评估跨领域对话模型。该数据集涵盖了酒店、餐厅、景点、地铁和出租车五个领域,包含丰富的对话状态和对话行为标注,为研究者提供了多轮、多领域对话的仿真环境。通过该数据集,研究人员能够训练和测试对话系统的自然语言理解、对话状态跟踪、策略学习和自然语言生成等核心模块,从而推动跨领域对话技术的进展。
实际应用
在实际应用中,CrossWOZ数据集支撑了智能客服、虚拟助手和旅游规划系统的开发。例如,在旅游服务平台中,系统需同时处理酒店预订、餐厅推荐和交通查询等跨领域请求。基于该数据集训练的模型能够理解用户的多领域意图,并协调不同领域的知识库,提供连贯、高效的对话服务。这提升了人机交互的自然性和实用性,推动了商业场景中对话技术的落地。
衍生相关工作
围绕CrossWOZ数据集,衍生了一系列经典研究工作。例如,基于该数据集的对话状态跟踪模型如SOM-DST和TripPy被广泛引用,它们利用跨领域标注优化状态迁移性能。同时,研究团队开发了ConvLab-3平台,集成了用户模拟器和基准模型,为对话系统的端到端评估提供了标准化工具。这些工作不仅拓展了数据集的学术价值,也促进了开源社区在任务型对话领域的协作与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作