five

JDDC Corpus|对话系统数据集|电商场景数据集

收藏
arXiv2020-03-24 更新2024-06-21 收录
对话系统
电商场景
下载链接:
http://jddc.jd.com/auth_environment
下载链接
链接失效反馈
资源简介:
JDDC Corpus是由京东AI创建的大规模多轮中文对话数据集,包含超过100万条多轮对话,2000万条语句和1.5亿个词汇。该数据集反映了人类对话的多个特征,如目标驱动和上下文间的长期依赖,涵盖了任务导向、闲聊和问答等多种对话类型。数据集的创建过程涉及从京东电商网站收集用户与客服的对话,并进行了去重、脱敏和匿名化处理。JDDC Corpus的应用领域包括对话系统的研究和开发,旨在解决真实电商场景中的复杂对话问题。
提供机构:
京东AI
创建时间:
2019-11-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
JDDC数据集的构建是通过从中国电子商务网站京东爬取用户与客服人员之间的对话实现的。该数据集包含了超过一百万个多轮对话,两千万个语句和一亿五千万个单词。数据集的构建过程包括爬取对话数据、去重、脱敏和匿名化处理,以及使用Jieba工具进行中文分词。为了方便未来的研究,数据集中每个查询的意图都被使用高精度的内部分类器进行了标注,该分类器覆盖了289种不同的意图,并且使用Hierarchical Attention Network模型进行训练。此外,数据集还提供了三个挑战集,用于评估对话系统的性能。
特点
JDDC数据集具有几个显著的特点。首先,它是一个大规模的数据集,包含了超过一百万个多轮对话,这使得它成为训练和评估对话系统的宝贵资源。其次,数据集中的对话反映了人类对话的复杂性,例如目标驱动和长期依赖性。此外,数据集涵盖了各种对话类型,包括任务导向、闲聊和问答。数据集还提供了额外的意图信息和三个高质量的人工标注挑战集,这些挑战集提供了不同的输入信息,并标注了多个真实答案,使得对话系统可以在更细粒度的水平上进行评估。
使用方法
使用JDDC数据集时,可以将其分为训练集、验证集和测试集。对于基于检索的模型,可以使用BM25或BERT进行检索。对于生成模型,可以使用Seq2Seq模型,并添加注意力机制和复制机制来提高性能。评估模型性能时,可以使用BLEU、ROUGE、Distinct等指标进行自动评估。此外,还可以通过案例研究来分析不同模型在特定场景下的表现。
背景与挑战
背景概述
JDDC Corpus数据集的创建旨在解决构建人类对话式代理的挑战,特别是针对电子商务客服场景。该数据集由京东人工智能团队于2019年构建,包含了超过100万次多轮对话,2000万条发言,以及1.5亿个词汇。JDDC数据集反映了人类对话的复杂性,例如目标驱动和上下文之间的长期依赖性。它涵盖了各种对话类型,包括任务导向、闲聊和问答。此外,该数据集还提供了额外的意图信息和三个经过精心标注的挑战集,为对话任务的基础研究提供了一个有效的测试平台。
当前挑战
JDDC数据集面临的挑战包括:1)解决领域问题:该数据集旨在解决电子商务客服场景中的对话任务,需要构建能够处理复杂对话流程和长期上下文依赖性的对话系统。2)构建过程中的挑战:构建大规模的真实场景对话数据集需要解决数据收集、清洗、标注和存储等一系列问题,确保数据的质量和可用性。此外,由于电子商务客服场景的多样性和复杂性,对话系统的设计和训练需要考虑多种因素,例如意图识别、上下文理解、知识推理和可控响应生成等。
常用场景
经典使用场景
JDDC数据集的构建旨在为电商客服领域的对话系统研究提供一个大规模、多轮次的中文对话语料库。该数据集包含超过100万条多轮对话,2000万条语句和1.5亿个词,反映了人类对话的复杂性,例如目标驱动性和上下文之间的长期依赖性。它涵盖了各种对话类型,包括任务导向型、闲聊和问答。此外,还为每个查询提供了额外的意图信息和三个高质量的人工标注挑战集,用于更好地评估对话系统。
解决学术问题
JDDC数据集解决了现有对话数据集规模小、领域特定、缺乏上下文依赖性等问题。它提供了一个真实电商场景下的多轮对话语料库,有助于研究人员更好地理解人类对话的复杂性和上下文依赖性。此外,JDDC数据集还提供了额外的意图信息和三个挑战集,为对话系统的评估提供了更好的工具。
衍生相关工作
JDDC数据集的发布促进了电商客服领域对话系统的研究。基于JDDC数据集,研究人员开发了各种对话模型,如基于检索的模型和生成式模型,并在JDDC数据集上进行了评估。这些研究有助于推动对话系统技术的发展,并为电商客服领域的实际应用提供参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Papersnake/people_daily_news

人民日报(1946-2023)数据集是CialloCorpus的一部分。

hugging_face 收录

REFIT Smart Home dataset

REFIT Smart Home数据集是一个公开可用的智能家居数据集。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录