开源对话数据集汇总(中文)

github2023-02-10 更新2024-05-31 收录

下载链接：

https://github.com/YouTaoBaBa/Chinese-Dialogue-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于汇总目前的开源中文对话数据集

A summary of currently available open-source Chinese dialogue datasets.

创建时间：

2022-07-06

原始信息汇总

开源对话数据集汇总(中文)

pCLUE

描述: 基于提示的大规模预训练数据集，用于多任务学习和零样本学习，可调整为聊天数据。
下载链接: https://github.com/CLUEbenchmark/pCLUE

NaturalConv (腾讯2021)

描述: 语料库包含了来自6个领域的19.9K对话和400K话语，平均回合数为20.1。
引用论文: NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation
下载链接: https://ai.tencent.com/ailab/nlp/dialogue/#datasets
下载脚本: https://github.com/naturalconv/NaturalConvDataSet

CrossWOZ (清华2020)

描述: 大规模的跨域Wizard-of-Oz面向任务的数据集，包含6K对话会话和102K话语，涵盖5个领域。
引用论文: https://arxiv.org/pdf/2002.11893.pdf
下载链接: https://github.com/thu-coai/CrossWOZ

KdConv (清华 2020)

描述: 中文多领域知识驱动会话数据集，包含4.5K对话和86K话语，平均回合数为19.0。
引用论文: https://arxiv.org/pdf/2004.04100.pdf
下载链接: https://github.com/thu-coai/KdConv

LCCC (清华 2020)

描述: 开放领对话数据集，可以通过huggingface的datasets库加载。
论文地址: A Large-Scale Chinese Short-Text Conversation Dataset
下载链接: https://github.com/thu-coai/CDial-GPT

Douban Conversation Corpus (豆瓣2017)

描述: 豆瓣多轮对话。
引用论文: Sequential Matching Network: A New Archtechture for Multi-turn Response Selection in Retrieval-based Chatbots.
下载链接: https://github.com/MarkWuNLP/MultiTurnResponseSelection

特定领域对话

医疗对话

阿里天池医疗对话
- 描述: 中文医疗对话数据集由792099个问答对组成。
- 下载链接: https://tianchi.aliyun.com/dataset/dataDetail?dataId=90163

客服对话

淘宝客服
- 论文引用: Modeling Multi-turn Conversation with Deep Utterance Aggregation
- 下载链接: https://github.com/cooelf/DeepUtteranceAggregation
京东对话挑战赛
- 下载链接: https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq

搜集汇总

数据集介绍

构建方式

该开源对话数据集汇总(中文)通过整合多个领域的对话数据，构建了一个全面的中文对话资源库。数据集包括基于提示的大规模预训练数据集pCLUE，腾讯的NaturalConv，清华大学的CrossWOZ、KdConv和LCCC，以及豆瓣的对话语料库。此外，还涵盖了特定领域的对话数据，如阿里天池的医疗对话和淘宝客服对话。这些数据集通过引用相关论文和提供下载链接，确保了数据来源的可靠性和学术背景的支持。

特点

该数据集的特点在于其多样性和广泛性。它不仅包含了多任务学习和零样本学习的预训练数据，还涵盖了多领域、多回合的对话场景，如跨域任务对话和知识驱动会话。此外，特定领域的对话数据为医疗和客服等实际应用提供了丰富的资源。数据集的多样性使其适用于不同类型的对话系统研究和开发，从基础的对话生成到复杂的任务导向对话。

使用方法

使用该数据集时，用户可以通过提供的下载链接获取各个子数据集。对于pCLUE和NaturalConv等数据集，用户可以直接下载并用于预训练或微调模型。对于CrossWOZ和KdConv等数据集，用户可以利用其丰富的对话状态注释和多领域覆盖进行任务导向对话的研究。特定领域的对话数据，如医疗和客服对话，可以用于开发和评估专业领域的对话系统。此外，数据集的引用论文提供了详细的使用指南和研究背景，帮助用户更好地理解和应用数据。

背景与挑战

背景概述

随着自然语言处理技术的迅猛发展，对话系统在多个领域展现出巨大的应用潜力。开源对话数据集汇总(中文)应运而生，旨在为研究人员提供丰富且多样化的中文对话数据资源。该数据集涵盖了从多任务学习到特定领域对话的广泛应用场景，包括腾讯、清华大学、豆瓣等知名机构和平台的数据贡献。这些数据集不仅为多轮对话、零样本学习等前沿研究提供了坚实的基础，还推动了对话系统在实际应用中的性能提升。

当前挑战

尽管开源对话数据集汇总(中文)提供了丰富的资源，但在构建和应用过程中仍面临诸多挑战。首先，数据集的多样性和质量控制是一个重要问题，不同来源的数据在格式、领域和质量上存在差异，需要进行统一的标准化处理。其次，多轮对话中的上下文理解和话题切换机制仍需进一步优化，以提高对话系统的自然性和连贯性。此外，特定领域的对话数据集，如医疗和客服，对隐私和伦理提出了更高的要求，如何在保证数据安全的前提下进行有效利用，是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，开源对话数据集汇总(中文)被广泛应用于对话系统的开发与优化。例如，pCLUE数据集通过其多任务学习和零样本学习的特性，为构建能够适应多种场景的智能对话系统提供了丰富的训练资源。此外，NaturalConv数据集因其多领域、多轮次的对话特性，成为研究多轮对话管理和话题切换机制的重要工具。

解决学术问题

该数据集解决了对话系统研究中的多个关键问题，如多轮对话中的上下文理解、话题切换和领域适应性。通过提供丰富的对话样本和详细的注释，这些数据集帮助研究人员开发出更智能、更自然的对话系统，从而推动了人机交互技术的发展。

衍生相关工作

基于这些数据集，研究者们开发了多种对话系统模型和算法，如基于深度学习的对话生成模型、对话状态跟踪和策略学习方法。例如，LCCC数据集的开放领域对话特性激发了大量关于短文本对话生成和回复选择的研究，而豆瓣对话数据集则促进了多轮对话匹配网络的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集