JDDC Corpus

Name: JDDC Corpus
Creator: 京东AI
Published: 2020-03-24 23:09:18
License: 暂无描述

arXiv2020-03-24 更新2024-06-21 收录

下载链接：

http://jddc.jd.com/auth_environment

下载链接

链接失效反馈

官方服务：

资源简介：

JDDC Corpus是由京东AI创建的大规模多轮中文对话数据集，包含超过100万条多轮对话，2000万条语句和1.5亿个词汇。该数据集反映了人类对话的多个特征，如目标驱动和上下文间的长期依赖，涵盖了任务导向、闲聊和问答等多种对话类型。数据集的创建过程涉及从京东电商网站收集用户与客服的对话，并进行了去重、脱敏和匿名化处理。JDDC Corpus的应用领域包括对话系统的研究和开发，旨在解决真实电商场景中的复杂对话问题。

JDDC Corpus is a large-scale multi-turn Chinese dialogue dataset developed by JD AI. It encompasses over 1 million multi-turn dialogues, 20 million utterances, and 150 million vocabulary terms. This dataset captures multiple core characteristics of human conversational behaviors, including goal-driven interaction and long-range contextual dependencies, and covers a wide range of dialogue categories such as task-oriented dialogue, casual chit-chat, and question answering. The construction of JDDC Corpus involves collecting user-customer service dialogues from JD's e-commerce platform, followed by post-processing steps including deduplication, desensitization, and anonymization. Application areas of JDDC Corpus cover research and development of dialogue systems, with the goal of addressing complex conversational challenges in real-world e-commerce scenarios.

提供机构：

京东AI

创建时间：

2019-11-22

搜集汇总

数据集介绍

构建方式

JDDC数据集的构建是通过从中国电子商务网站京东爬取用户与客服人员之间的对话实现的。该数据集包含了超过一百万个多轮对话，两千万个语句和一亿五千万个单词。数据集的构建过程包括爬取对话数据、去重、脱敏和匿名化处理，以及使用Jieba工具进行中文分词。为了方便未来的研究，数据集中每个查询的意图都被使用高精度的内部分类器进行了标注，该分类器覆盖了289种不同的意图，并且使用Hierarchical Attention Network模型进行训练。此外，数据集还提供了三个挑战集，用于评估对话系统的性能。

特点

JDDC数据集具有几个显著的特点。首先，它是一个大规模的数据集，包含了超过一百万个多轮对话，这使得它成为训练和评估对话系统的宝贵资源。其次，数据集中的对话反映了人类对话的复杂性，例如目标驱动和长期依赖性。此外，数据集涵盖了各种对话类型，包括任务导向、闲聊和问答。数据集还提供了额外的意图信息和三个高质量的人工标注挑战集，这些挑战集提供了不同的输入信息，并标注了多个真实答案，使得对话系统可以在更细粒度的水平上进行评估。

使用方法

使用JDDC数据集时，可以将其分为训练集、验证集和测试集。对于基于检索的模型，可以使用BM25或BERT进行检索。对于生成模型，可以使用Seq2Seq模型，并添加注意力机制和复制机制来提高性能。评估模型性能时，可以使用BLEU、ROUGE、Distinct等指标进行自动评估。此外，还可以通过案例研究来分析不同模型在特定场景下的表现。

背景与挑战

背景概述

JDDC Corpus数据集的创建旨在解决构建人类对话式代理的挑战，特别是针对电子商务客服场景。该数据集由京东人工智能团队于2019年构建，包含了超过100万次多轮对话，2000万条发言，以及1.5亿个词汇。JDDC数据集反映了人类对话的复杂性，例如目标驱动和上下文之间的长期依赖性。它涵盖了各种对话类型，包括任务导向、闲聊和问答。此外，该数据集还提供了额外的意图信息和三个经过精心标注的挑战集，为对话任务的基础研究提供了一个有效的测试平台。

当前挑战

JDDC数据集面临的挑战包括：1)解决领域问题：该数据集旨在解决电子商务客服场景中的对话任务，需要构建能够处理复杂对话流程和长期上下文依赖性的对话系统。2)构建过程中的挑战：构建大规模的真实场景对话数据集需要解决数据收集、清洗、标注和存储等一系列问题，确保数据的质量和可用性。此外，由于电子商务客服场景的多样性和复杂性，对话系统的设计和训练需要考虑多种因素，例如意图识别、上下文理解、知识推理和可控响应生成等。

常用场景

经典使用场景

JDDC数据集的构建旨在为电商客服领域的对话系统研究提供一个大规模、多轮次的中文对话语料库。该数据集包含超过100万条多轮对话，2000万条语句和1.5亿个词，反映了人类对话的复杂性，例如目标驱动性和上下文之间的长期依赖性。它涵盖了各种对话类型，包括任务导向型、闲聊和问答。此外，还为每个查询提供了额外的意图信息和三个高质量的人工标注挑战集，用于更好地评估对话系统。

解决学术问题

JDDC数据集解决了现有对话数据集规模小、领域特定、缺乏上下文依赖性等问题。它提供了一个真实电商场景下的多轮对话语料库，有助于研究人员更好地理解人类对话的复杂性和上下文依赖性。此外，JDDC数据集还提供了额外的意图信息和三个挑战集，为对话系统的评估提供了更好的工具。

衍生相关工作

JDDC数据集的发布促进了电商客服领域对话系统的研究。基于JDDC数据集，研究人员开发了各种对话模型，如基于检索的模型和生成式模型，并在JDDC数据集上进行了评估。这些研究有助于推动对话系统技术的发展，并为电商客服领域的实际应用提供参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集