JDDC 2.0语料库

Name: JDDC 2.0语料库
Creator: 京东AI研究院
Published: 2021-09-27 17:57:44
License: 暂无描述

arXiv2021-09-27 更新2024-06-21 收录

下载链接：

https://jddc.jd.com

下载链接

链接失效反馈

官方服务：

资源简介：

JDDC 2.0语料库是由京东AI研究院创建的大规模多模态多轮中文对话数据集，专注于电子商务客户服务领域。该数据集包含约24.6万对话会话，300万条话语和50.7万张图片，以及产品知识库和图片类别标注。数据集的创建旨在解决电子商务场景中用户通过文本、图像和视频等多种模态表达需求的问题，特别是在产品模型区分和产品故障指示方面。JDDC 2.0的应用领域主要集中在提升多模态对话任务的研究，尤其是在理解和响应用户多模态信息的需求上。

JDDC 2.0 Corpus is a large-scale multimodal, multi-turn Chinese dialogue dataset developed by JD AI Research, focusing on the e-commerce customer service domain. It contains approximately 246,000 dialogue sessions, 3 million utterances, 507,000 images, as well as product knowledge bases and image category annotations. The dataset was constructed to address the challenge of users expressing their requirements via multiple modalities including text, images and videos in e-commerce scenarios, especially in product model differentiation and product fault indication. The main application fields of JDDC 2.0 are primarily focused on advancing research in multimodal dialogue tasks, particularly in understanding and responding to users' needs involving multimodal information.

提供机构：

京东AI研究院

创建时间：

2021-09-27

搜集汇总

数据集介绍

构建方式

在电子商务场景中，多模态对话系统的构建依赖于高质量的真实交互数据。JDDC 2.0语料库的构建源于对中国主流电商平台京东的实际客服对话日志的系统性采集。研究团队筛选了销售量大、对话类型丰富的小家电与时尚产品两大品类，并聚焦于金牌客服的对话记录，以确保数据的多样性与专业性。数据采集周期为一个月，最终保留了包含至少一张图像的对话会话，经过严格的隐私脱敏处理，包括对商家名称、品牌型号及用户个人信息的掩码与哈希化，最终形成了包含约24.6万对话会话、300万话语和50.7万图像的大规模语料库。

使用方法

该数据集适用于多模态对话系统的训练与评估，尤其侧重于电商场景下的视觉-语言联合理解任务。研究者可利用其划分的训练集、验证集与测试集进行模型开发，任务定义为基于历史对话、当前用户问题（含图像）及相关产品知识库生成恰当回复。数据集中提供的图像类别标注与知识库（含3万余产品实体、759种属性关系）可作为多模态融合的先验信息。使用前需通过官方平台注册并签署学术使用协议，确保数据仅限于非商业研究目的。典型应用包括多模态检索、生成式对话模型以及视觉-语言联合表示学习等方向。

背景与挑战

背景概述

随着互联网技术的飞速发展，电子商务已成为现代生活的重要组成部分，用户在与客服沟通时，常通过文本、图像乃至视频等多种模态表达需求，这对自动客服系统理解多模态信息提出了迫切要求。京东人工智能研究院于2021年构建了JDDC 2.0语料库，旨在推动电子商务场景下的多模态对话研究。该数据集源自中国主流电商平台，涵盖了约24.6万对话会话、300万话语和50.7万图像，并附带产品知识库与图像类别标注，其核心研究问题在于弥合图像与文本之间的语义鸿沟，以提升多模态对话系统的理解与生成能力。JDDC 2.0的发布为相关领域提供了大规模真实场景数据资源，促进了多模态自然语言处理技术的创新与应用。

当前挑战

JDDC 2.0语料库致力于解决电子商务场景中的多模态对话任务，其核心挑战在于如何有效融合文本与视觉信息以生成准确、连贯的客服响应。具体而言，模型需克服图像细节理解不足的难题，例如识别产品型号或故障位置；同时，对话中频繁的主题切换与长尾问题增加了上下文建模的复杂性，要求系统具备精细的对话策略。在构建过程中，研究人员面临数据隐私保护的严峻挑战，需对商户与客户的敏感信息进行脱敏处理，如掩码联系方式与哈希化会话编号。此外，确保数据多样性与高质量标注亦需精心筛选金牌客服的对话记录，并设计涵盖售前咨询、物流配送及售后维护等全流程的图像分类体系。

常用场景

经典使用场景

在电子商务客户服务领域，JDDC 2.0语料库作为大规模多模态多轮中文对话数据集，其经典使用场景聚焦于训练和评估能够同时理解文本与视觉信息的智能对话系统。该数据集通过整合用户咨询过程中的文字描述与产品图像，模拟了真实购物场景中客户服务需处理的多模态交互需求，为研究者提供了探索图像如何辅助文本进行意图识别的实验平台。

解决学术问题

JDDC 2.0语料库有效解决了多模态对话系统中视觉与文本信息融合的学术难题，特别是在电子商务场景下，用户常通过图像展示产品故障或型号差异，而仅凭文本难以完整传达意图。该数据集推动了跨模态理解模型的发展，使研究者能够设计算法以联合解析图像内容与对话上下文，从而提升系统在复杂多轮交互中的响应准确性与情境适应性。

实际应用

在实际应用中，JDDC 2.0语料库为电子商务平台开发智能客服机器人提供了关键数据支持。基于该数据集训练的模型能够处理用户发送的产品图片与文字咨询，自动识别图像中的产品缺陷或型号特征，并结合知识库生成精准回复，显著提升了客户服务效率与用户体验，实现了从售前咨询到售后维护的全流程自动化辅助。

数据集最近研究