NaturalConv

Name: NaturalConv
Creator: 腾讯AI实验室
Published: 2021-03-06 01:12:20
License: 暂无描述

arXiv2021-03-06 更新2024-06-21 收录

下载链接：

https://ai.tencent.com/ailab/nlp/dialogue/#datasets

下载链接

链接失效反馈

官方服务：

资源简介：

NaturalConv是一个面向多轮主题驱动对话的中文数据集，由腾讯AI实验室创建。该数据集包含约400,000条话语和19,919个对话，平均每轮对话20.1次交流。数据集涵盖体育、娱乐、技术等多个领域，旨在通过自然和流畅的话题转换模拟人类对话。创建过程中，研究人员通过收集新闻文章作为对话基础，允许参与者在保持话题相关性的同时自由扩展话题。NaturalConv适用于评估和提升多轮对话系统的自然性和有效性，特别是在处理复杂和多变的对话场景时。

NaturalConv is a Chinese dataset dedicated to multi-turn topic-driven dialogues, developed by Tencent AI Lab. This dataset contains approximately 400,000 utterances and 19,919 dialogues, with an average of 20.1 exchanges per dialogue session. It covers multiple domains such as sports, entertainment, technology and others, and aims to simulate human-like conversations through natural and fluent topic transitions. During the creation process, researchers collected news articles as the foundation of the dialogues, allowing participants to freely expand topics while maintaining topic relevance. NaturalConv is applicable to evaluating and enhancing the naturalness and effectiveness of multi-turn dialogue systems, particularly in complex and dynamic conversational scenarios.

提供机构：

腾讯AI实验室

创建时间：

2021-03-04

搜集汇总

数据集介绍

构建方式

在开放域对话系统研究日益深入的背景下，NaturalConv数据集的构建旨在模拟人类自然对话的多样性与流畅性。该数据集以新闻文章作为话题基础，通过精心设计的标注流程，邀请标注者基于共同阅读的新闻进行多轮对话。标注过程中仅设定三项核心原则：对话轮次需达到一定长度、话题内容需被提及、对话需在预设场景下自然展开。标注者被赋予高度自由，可进行话题延伸、闲谈或场景假设，从而确保对话不仅围绕给定话题，更能体现真实人际交流中的灵活性与丰富性。最终，数据集涵盖六个领域，包含19.9K段对话与400K条话语，平均对话轮次达20.1轮，为多轮话题驱动对话研究提供了高质量语料。

特点

NaturalConv数据集的突出特点在于其高度贴近人类自然对话的特性。与以往话题驱动对话数据集不同，该数据集不强制对话严格局限于给定话题，允许标注者在提及话题元素后自由转向其他内容，且话题转换需保持自然流畅。同时，每段对话均设定具体场景，如课堂、操场等，增强了对话的语境真实感。数据统计显示，对话与背景文档的BLEU相似度较低，表明对话内容并非简单重复文档信息，而包含大量扩展讨论、个人经历分享及闲谈，从而呈现出更强的多样性与自然度。这些特性使该数据集成为评估对话系统自然性与灵活性的重要基准。

使用方法

NaturalConv数据集适用于多轮话题驱动对话系统的训练与评估。研究者可基于该数据集开发检索式或生成式对话模型，探索如何有效利用背景知识生成自然回应。数据已按文档划分训练、开发与测试集，确保同一文档对应的对话仅出现在同一集合中，避免信息泄漏。在模型设计中，可尝试将新闻文档作为额外知识输入，通过注意力机制整合话题信息，以提升对话的相关性与连贯性。数据集的评估指标包括BLEU、F1、DISTINCT及BERTScore等，兼顾了回应相似度与多样性。此外，其丰富的场景设置与话题转换也为对话策略与风格学习提供了新的研究维度。

背景与挑战

背景概述

在开放域对话系统研究领域，随着大规模对话数据的涌现与神经方法的进步，构建能够像人类一样就多样话题进行自然交流的系统仍面临严峻挑战。为此，腾讯人工智能实验室于2021年推出了NaturalConv数据集，这是一个面向多轮话题驱动对话的中文语料库。该数据集旨在模拟真实人类对话的自然性与灵活性，其核心研究问题聚焦于如何将背景知识或话题信息融入对话生成，以提升对话的丰富度与连贯性。通过包含约19.9万段对话、40万条话语，覆盖体育、娱乐、科技等多个领域，且平均轮次达20.1，NaturalConv为评估多轮对话系统的有效性与自然性提供了重要基准，推动了话题驱动对话建模的研究进展。

当前挑战

NaturalConv数据集所针对的领域问题在于知识驱动对话生成，其核心挑战是如何在对话中自然、灵活地融入外部知识或话题信息，避免生成内容机械重复或脱离上下文。现有模型在引入背景知识后性能提升有限，表明当前方法在挖掘与利用人类对话中常见的话题延伸、场景假设及闲谈等元素方面仍存在不足。在构建过程中，数据收集面临确保对话自然性与多样性的难题，包括如何设计宽松的标注指南以允许话题自由转换与场景化交流，同时控制质量以避免标注者敷衍行为，并处理文档与对话间较低的内容重叠度，这些因素共同增加了语料构建的复杂性与成本。

常用场景

经典使用场景

在开放域对话系统研究领域，NaturalConv数据集常被用于评估多轮话题驱动对话的自然性与连贯性。该数据集通过模拟真实人类对话场景，要求参与者在给定话题基础上自由延伸与切换，同时融入寒暄、个人经历分享等自然对话元素。其经典使用场景包括训练和测试神经对话生成模型在长对话序列中维持话题相关性的能力，以及探索如何将外部知识平滑整合到动态对话流程中。研究者通常利用该数据集验证模型在保持对话自然度的前提下，能否实现话题的有机过渡与深度拓展。

衍生相关工作

基于NaturalConv数据集衍生的经典工作主要集中于对话自然度评估与知识融合机制创新两大方向。在评估体系方面，研究者开发了针对话题连贯性与场景适配性的新型评价指标，弥补了传统自动评价指标的不足。在模型架构层面，出现了多种结合注意力机制与记忆网络的知识选择模型，尝试解决文档知识在长对话中的动态激活问题。该数据集还催生了对话策略学习的研究分支，探索如何模拟人类对话中的话题引导与切换策略，推动对话系统向更智能的交互范式演进。

数据集最近研究