Conversation Initiation Dataset

github2022-10-19 更新2024-05-31 收录

下载链接：

https://github.com/yahoojapan/yj-ci-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

在我们的日常闲聊中，总有一个对话发起者，他主动发出初始话语来开始聊天。然而，大多数现有的对话系统无法扮演这一角色。以往的对话系统研究假设用户总是发起对话，并侧重于如何回应用户的输入。因此，现有的对话系统变得被动，即它们会一直等待直到用户发言。为了解决这个问题，我们通过众包服务创建了一个大规模数据集，用于训练和评估对话发起模型。在此设置中，系统通过谈论新闻主题来发起对话，系统被提供一个新闻帖子来生成对话的初始话语。

In our daily casual conversations, there is always an initiator who proactively delivers the initial utterance to start a chat. However, most existing dialogue systems are incapable of playing this role. Previous research on dialogue systems assumes that the user always initiates the conversation and focuses on how to respond to the user's input. Consequently, existing dialogue systems have become passive, meaning they will wait until the user speaks. To address this issue, we have created a large-scale dataset through a crowdsourcing service for training and evaluating dialogue initiation models. In this setup, the system initiates the conversation by discussing news topics, and the system is provided with a news post to generate the initial utterance of the dialogue.

创建时间：

2019-04-02

原始信息汇总

数据集名称

Conversation Initiation Dataset

数据集目的

该数据集旨在训练和评估对话发起模型，通过众包服务创建，以解决现有对话系统在对话发起方面的被动性问题。

任务设置

系统通过讨论新闻话题来发起对话，使用提供的新闻帖子生成对话的初始语句。

数据集组成部分

输入（新闻内容）

src_*.tsv: 包含@YahooNewsTopics的推文ID，用于训练和测试基于编码器-解码器的对话模型。需替换每行内容为原始新闻帖子，并移除URL及"【"和"】"包围的第一个标记。

输出（总结和闲聊）

tgt-sep_*.tsv: 用于开发Separate模型，第一列为总结部分，第二列为闲聊部分。
tgt-joint_*.tsv: 用于开发Joint模型。

数据处理要求

所有文件必须使用MeCab ver. 0.996和ipadic dictionary进行分词处理。

许可证

Creative Commons Attribution 4.0 License

搜集汇总

数据集介绍

构建方式

Conversation Initiation Dataset的构建基于众包服务，旨在解决现有对话系统被动等待用户发起对话的问题。数据集围绕新闻话题展开，系统通过生成初始话语来主动发起对话。输入数据来源于@YahooNewsTopics的推文，经过处理后作为训练和测试编码器-解码器对话模型的源句子。输出数据则包括摘要和闲聊部分，分别用于训练Separate模型和Joint模型。

特点

该数据集的特点在于其专注于对话系统的主动发起能力，突破了传统对话系统仅回应用户话语的局限。数据集以新闻内容为基础，提供了丰富的语境信息，使得模型能够在多样化的主题下生成自然的初始话语。此外，数据集的输出部分经过精心设计，支持不同类型的模型训练，如Separate模型和Joint模型，为研究者提供了灵活的实验平台。

使用方法

使用Conversation Initiation Dataset时，首先需从@YahooNewsTopics的推文中提取新闻内容，并移除URL和特定标记。随后，使用MeCab工具对数据进行分词处理，确保输入格式符合模型要求。数据集分为训练和测试两部分，研究者可根据需要选择Separate模型或Joint模型进行训练。通过该数据集，开发者能够训练出能够主动发起对话的智能系统，提升用户体验。

背景与挑战

背景概述

在自然语言处理领域，对话系统的研究长期以来主要集中于如何回应用户的输入，而忽略了系统主动发起对话的能力。Conversation Initiation Dataset的创建正是为了解决这一问题，由东京大学的研究人员Satoshi Akasaki和Nobuhiro Kaji于2019年提出。该数据集通过众包服务构建，旨在训练和评估对话发起模型，使系统能够基于新闻话题主动发起对话。这一创新不仅填补了现有对话系统的空白，还为未来智能对话系统的发展提供了新的研究方向。

当前挑战

Conversation Initiation Dataset面临的主要挑战包括两个方面：首先，在领域问题层面，如何使系统生成自然且引人入胜的初始对话仍然是一个技术难题，尤其是在结合新闻内容进行对话发起时，需要平衡信息的准确性与对话的流畅性。其次，在数据集构建过程中，研究人员需要处理大量非结构化的新闻数据，并通过众包服务生成高质量的对话样本，这一过程不仅耗时且成本高昂。此外，数据预处理和分词（如使用MeCab工具）也对技术实现提出了较高要求。

常用场景

经典使用场景

在对话系统研究中，Conversation Initiation Dataset被广泛用于训练和评估对话启动模型。该数据集通过众包服务构建，模拟系统主动发起对话的场景，特别是围绕新闻话题展开的对话。研究人员利用该数据集开发能够主动生成对话初始语句的模型，从而提升对话系统的交互性和主动性。

实际应用

在实际应用中，Conversation Initiation Dataset为智能助手、客服机器人等对话系统提供了技术基础。通过训练基于该数据集的模型，系统能够在用户未主动发起对话时，根据新闻内容生成合适的开场白，从而提升用户体验和交互效率。这种能力在新闻推荐、社交互动等场景中具有广泛的应用潜力。

衍生相关工作

基于Conversation Initiation Dataset，研究人员提出了多种对话启动模型，如Separate模型和Joint模型。这些模型在NAACL等顶级会议上发表，推动了对话生成领域的研究进展。此外，该数据集还激发了更多关于对话系统主动性和多样性的研究，为后续工作提供了重要的数据和方法参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集