Topical-Chat

github2020-07-18 更新2024-05-31 收录

下载链接：

https://github.com/gokulsg/alexa-prize-topical-chat-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Topical-Chat是一个知识基础的人与人开放领域对话数据集，涵盖8个广泛主题，对话伙伴没有明确的定义角色。数据集主要包含两种类型的文件：对话文件和阅读集文件。对话文件包含Amazon Mechanical Turk上两名工作者之间的对话，阅读集文件包含来自Wikipedia、Reddit和Washington Post的知识部分，供特定工作者阅读并在对话中参考。

Topical-Chat is a knowledge-grounded, open-domain human-to-human conversational dataset that spans eight broad topics, with no explicitly defined roles for the conversational partners. The dataset primarily consists of two types of files: conversation files and reading set files. The conversation files contain dialogues between two workers on Amazon Mechanical Turk, while the reading set files include knowledge sections from Wikipedia, Reddit, and The Washington Post, which are provided for specific workers to read and reference during their conversations.

创建时间：

2020-07-18

原始信息汇总

数据集概述

数据集名称

Topical-Chat

数据集描述

Topical-Chat是一个基于知识的开放领域人机对话数据集，涵盖8个广泛主题，对话双方无明确角色定义。

数据集组成

对话文件：.json格式，包含Amazon Mechanical Turk上的两名工作者（Turkers）之间的对话。
阅读集文件：.json格式，包含来自Wikipedia、Reddit和Washington Post的知识段落，供Turkers在对话中参考。

数据统计

类型	训练集	验证频繁集	验证稀有集	测试频繁集	测试稀有集	总计
对话数量	8628	539	539	539	539	10784
话语数量	188378	11681	11692	11760	11770	235434
平均对话轮数	21.8	21.6	21.7	21.8	21.8	21.8
平均话语长度	19.5	19.8	19.8	19.5	19.5	19.6

数据分割

数据集分为五个部分：训练集、验证频繁集、验证稀有集、测试频繁集和测试稀有集。频繁集包含训练集中常见的实体，稀有集包含训练集中不常见的实体。

配置类型

每场对话应用随机配置，配置定义了对话双方的信息对称性或不对称性，以收集多样化的对话。

对话文件格式

conversation_id：唯一哈希ID，标识对话。
article_url：指向Washington Post文章的URL。
config：应用的配置类型。
content：对话轮次的顺序列表。
- agent：标识哪个Turker生成了哪个轮次。
- message：Turker的回应。
- sentiment：Turker对消息情感的自我注释。
- knowledge_source：Turker参考阅读集部分的自我注释。
- turn_rating：Turker伙伴对消息质量的注释。
conversation_rating：Turker对对话质量的自我注释。

阅读集文件格式

conversation_id：唯一哈希ID，标识对话。
config：应用的配置类型。
article_url：指向Washington Post文章的URL。
agent_1 和 agent_2：包含分配给每个Turker的阅读集。
- FS*：事实部分，包含知识片段。
  - entity：参考实体。
  - shortened_wiki_lead_section：简化的Wikipedia引导部分。
  - fun_facts：来自sub-reddit todayilearned的众包有趣事实。
- AS*：文章部分，Washington Post文章的分割部分。
headline：Washington Post文章的标题。

数据来源

Wikipedia：数据来自src/wiki.json，用于构建阅读集。

引用信息

@inproceedings{Gopalakrishnan2019, author={Karthik Gopalakrishnan and Behnam Hedayatnia and Qinlang Chen and Anna Gottardi and Sanjeev Kwatra and Anu Venkatesh and Raefer Gabriel and Dilek Hakkani-Tür}, title={{Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations}}, year=2019, booktitle={Proc. Interspeech 2019}, pages={1891--1895}, doi={10.21437/Interspeech.2019-3079}, url={http://dx.doi.org/10.21437/Interspeech.2019-3079} }

搜集汇总

数据集介绍

构建方式

Topical-Chat数据集的构建基于亚马逊Mechanical Turk平台上的人类对话，涵盖了8个广泛的主题。数据集由两部分组成：对话文件和阅读集文件。对话文件记录了两位Turkers之间的对话，而阅读集文件则包含了来自Wikipedia、Reddit和Washington Post的知识片段，供Turkers在对话中参考。通过一个简单的脚本（build.py），可以从相关数据源中提取文本，构建完整的阅读集。

特点

Topical-Chat数据集的特点在于其知识驱动的对话结构，涵盖了多样化的主题和对话配置。数据集包含超过10,000个对话，每个对话平均包含21.8轮，每轮对话的平均长度为19.5个词。数据被划分为训练集、验证集和测试集，其中验证集和测试集进一步分为频繁和稀有实体集，以评估模型在不同实体频率下的表现。此外，对话配置的多样性确保了信息对称性和不对称性的广泛覆盖。

使用方法

使用Topical-Chat数据集时，首先需要克隆GitHub仓库并安装所需的Python依赖。通过提供Reddit API密钥，运行build.py脚本即可构建完整的阅读集。数据集中的对话文件和阅读集文件均以JSON格式存储，便于解析和使用。对话文件包含对话的唯一标识、配置类型、对话内容及评分信息，而阅读集文件则包含对话中使用的知识片段。该数据集适用于训练和评估知识驱动的开放域对话系统。

背景与挑战

背景概述

Topical-Chat数据集由亚马逊Alexa Prize团队于2019年推出，旨在推动基于知识的开放域对话系统的研究。该数据集由Karthik Gopalakrishnan等研究人员主导开发，涵盖了8个广泛的主题，通过亚马逊Mechanical Turk平台收集了超过10,000次人类对话。每段对话均基于从Wikipedia、Reddit和Washington Post等来源获取的知识片段，对话双方在信息对称或不对称的情况下进行交流。Topical-Chat的推出为对话系统领域提供了丰富的实验数据，尤其在知识驱动的对话生成和评估方面具有重要影响力。

当前挑战

Topical-Chat数据集在构建和应用中面临多重挑战。首先，对话生成的质量高度依赖于知识片段的准确性和多样性，如何从多源异构数据中提取并整合有效知识是一个关键问题。其次，对话双方的信息对称性配置增加了数据复杂性，要求模型能够灵活应对不同信息条件下的对话场景。此外，数据集中包含的罕见实体和低频对话模式对模型的泛化能力提出了更高要求。最后，构建过程中需处理大量外部数据源（如Reddit API），数据获取和处理的效率与稳定性也成为技术难点。

常用场景

经典使用场景

Topical-Chat数据集广泛应用于自然语言处理领域，特别是在知识驱动的开放域对话系统研究中。该数据集通过提供基于广泛主题的知识背景，使得研究人员能够训练和评估对话模型在复杂对话场景中的表现。其独特的对话结构和知识引用机制，为模型提供了丰富的上下文信息，使其能够生成更加连贯和知识丰富的回复。

实际应用

在实际应用中，Topical-Chat数据集被广泛用于开发智能客服、虚拟助手和教育领域的对话系统。通过利用该数据集中的知识背景和对话结构，开发者能够构建出能够理解复杂用户需求并提供准确信息的对话系统。例如，在智能客服中，系统可以根据用户的问题引用相关知识，提供更加个性化和准确的回答。

衍生相关工作

Topical-Chat数据集催生了一系列经典研究工作，特别是在知识驱动的对话生成和对话质量评估领域。许多研究基于该数据集提出了新的模型架构和训练方法，如基于知识图谱的对话生成模型和基于强化学习的对话优化方法。这些工作不仅提升了对话系统的性能，还为未来的研究提供了宝贵的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集