中文自然话题对话(CNTD)数据集

Name: 中文自然话题对话(CNTD)数据集
Creator: 苏州大学计算机科学与技术学院
Published: 2023-05-02 12:03:50
License: 暂无描述

arXiv2023-05-02 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2305.01195v1

下载链接

链接失效反馈

官方服务：

资源简介：

中文自然话题对话(CNTD)数据集是由苏州大学计算机科学与技术学院创建，旨在填补中文自然对话话题数据集的空白。该数据集包含1308条高质量对话，内容涵盖多个领域，如健康、教育、技术等，每条对话均基于一则新闻，增加了对话的真实性和多样性。数据集的创建过程经过精细的手工标注，确保了数据的质量。CNTD数据集主要用于对话话题转移检测的研究，帮助对话系统更有效地理解和预测话题的变化，提升对话的自然度和连贯性。

The Chinese Natural Topic Dialogue (CNTD) dataset was developed by the School of Computer Science and Technology, Soochow University, aiming to fill the research gap of Chinese natural dialogue topic datasets. It contains 1308 high-quality dialogues covering multiple domains such as healthcare, education and technology. Each dialogue is based on a news article, which enhances the authenticity and diversity of the dataset. The construction of the CNTD dataset underwent rigorous manual annotation to ensure data quality. The CNTD dataset is primarily used for research on dialogue topic shift detection, helping dialogue systems more effectively understand and predict topic changes, and improving the naturalness and coherence of conversations.

提供机构：

苏州大学计算机科学与技术学院

创建时间：

2023-05-02

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，构建高质量的中文自然话题对话语料库对于推动话题转移检测任务至关重要。中文自然话题对话（CNTD）数据集的构建以NaturalConv数据集为基础源，该源数据以其多领域覆盖和接近真实人类对话的自然性而著称。研究团队采用严格的人工标注流程，首先从健康、教育、体育等六个领域按比例抽取初始对话，由多名标注员经过共同标注、独立标注和半自动复核三个阶段完成。标注过程遵循精细的指导原则，依据响应与上文的关系，将每个对话轮次划分为评论上文、问答、发展子话题、引入相关但不同话题及完全改变话题五种细粒度类别，并对问候和告别进行统一处理，最终形成了包含1308个对话、超过2.6万个轮次的高质量标注语料库。

特点

该数据集在中文对话话题分析领域展现出鲜明的特色。其核心优势在于语料的自然性与丰富性，所有对话均源于多领域的新闻报道作为基础文档，使得对话内容贴近真实生活场景，涵盖了广泛的日常话题。数据规模显著，包含1308个对话，远超同类中文语料库，且每个对话平均轮次超过20轮，话题数量平均达到5.2个，为模型训练提供了充足的上下文长度和复杂的话题转移模式。此外，数据集不仅提供了粗粒度的“话题是否转移”的二分类标签，还创新性地标注了五种细粒度的响应类型，这为深入探究话题转移的内在机制和开发更精细的对话理解模型提供了宝贵资源。

使用方法

该数据集主要服务于对话话题转移检测任务，特别是响应未知场景下的研究。在使用时，研究者需从每个对话中提取（上下文，响应）对作为模型输入，并将该响应对应的标注标签（是否发生话题转移）作为预测目标。数据已预先划分为训练集（1041个对话）、验证集（134个对话）和测试集（133个对话），便于进行模型训练与评估。典型的使用范式是构建端到端的分类模型，例如论文中提出的基于分层对比学习的师生框架，该框架利用教师模型引入响应信息，并通过知识蒸馏和对比学习机制指导学生模型仅依据上下文进行话题转移预测。评估指标通常采用精确率、召回率和Micro-F1值，以全面衡量模型性能。

背景与挑战

背景概述

在对话系统研究领域，话题转移检测旨在识别对话中话题是否发生转换，对于提升对话系统的主动引导能力具有关键意义。中文自然话题对话（CNTD）数据集由苏州大学与香港中文大学（深圳）的研究团队于2023年构建，旨在填补中文自然对话话题语料的空白。该数据集基于NaturalConv语源，包含1308个多领域对话，覆盖健康、教育、体育等六个主题，每个对话均以新闻文档为基础，增强了话题的自然性与多样性。CNTD的创建推动了对话话题检测任务的发展，特别是在响应未知情境下的模型研究，为中文对话理解提供了重要的数据支撑。

当前挑战

CNTD数据集所针对的对话话题转移检测任务面临核心挑战：在响应未知条件下，模型仅能依赖上下文信息预测话题转换，缺乏未来话语的参考，这使得准确区分话题延续与转移变得尤为困难。构建过程中，研究团队需克服自然对话语料稀缺的障碍，现有中文话题语料规模小、质量参差，且多局限于特定领域。此外，标注过程需处理对话中复杂的话题交互模式，如评论、问答、子话题发展等多种场景，确保标注一致性与语料的高质量，这要求精细的标注指南与多阶段人工校验流程。

常用场景

经典使用场景

在对话系统与自然语言处理领域，中文自然话题对话（CNTD）数据集为对话话题转移检测任务提供了关键资源。该数据集基于自然对话场景构建，涵盖健康、教育、体育等多个领域，每个对话均以新闻文档为基础，模拟真实人际交流中的话题演变。其经典使用场景集中于训练和评估模型在无响应信息条件下的对话话题转移预测能力，通过精细标注的对话轮次与话题标签，支持模型学习自然对话中话题的连贯性与跳跃性规律。

衍生相关工作

CNTD数据集的发布促进了多项经典衍生工作的开展，尤其是在对话话题转移检测的模型架构与学习方法上。基于该数据集，研究者提出了教师-学生框架与分层对比学习等创新方法，通过知识蒸馏与对比学习机制引入响应信息，显著提升了模型在响应未知任务上的性能。这些工作不仅扩展了话题转移检测的理论边界，还为多语言对话分析、跨领域话题建模等研究方向提供了借鉴，例如在英文TIAGE数据集上的跨语言验证，进一步证明了此类方法的普适性与有效性。

数据集最近研究