Topical-Chat

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/alexa/alexa-prize-topical-chat-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Topical-Chat是一个基于知识的人类开放领域对话数据集，涵盖8个广泛主题，对话伙伴没有明确的定义角色。数据集主要包括两种类型的文件：对话文件和阅读集文件。

Topical-Chat is a knowledge-based human open-domain dialogue dataset that covers eight broad topics, with no explicitly defined roles for the dialogue partners. The dataset primarily consists of two types of files: dialogue files and reading set files.

创建时间：

2019-09-17

原始信息汇总

数据集概述

数据集名称

Topical-Chat

数据集描述

Topical-Chat是一个基于知识的开放领域人机对话数据集，涵盖8个广泛主题。对话双方没有明确的角色定义。

数据集组成

Conversations: 包含Amazon Mechanical Turk工人之间的对话的JSON文件。
Reading Sets: 包含提供给对话者的知识内容的JSON文件。

数据集统计

Stat	Train	Valid Freq.	Valid Rare	Test Freq.	Test Rare	All
# of conversations	8628	539	539	539	539	10784
# of utterances	188378	11681	11692	11760	11770	235281
average # of turns per conversation	21.8	21.6	21.7	21.8	21.8	21.8
average length of utterance	19.5	19.8	19.8	19.5	19.5	19.6

数据集分割

数据集分为五个部分：训练集、验证频繁集、验证罕见集、测试频繁集和测试罕见集。频繁集包含训练集中常见的实体，罕见集包含训练集中不常见的实体。

配置类型

每个对话都应用了预定义配置列表中的随机知识配置，以构建一对阅读集，供合作伙伴Turkers使用。配置定义了合作伙伴Turkers之间不同程度的知识对称性或非对称性，从而收集了各种对话。

对话格式

conversation_id: 对话的唯一标识符。
article_url: 指向与对话相关的华盛顿邮报文章的URL。
config: 应用于获取对话阅读集的知识配置。
content: 对话轮次的顺序列表，包括代理标识、消息、情感、知识来源和轮次评级。
conversation_rating: 对话质量的自我注释，包括两个代理的评级。

阅读集格式

conversation_id: 对话的唯一标识符。
config: 应用于获取对话阅读集的知识配置。
agent_{1/2}: 包含该代理阅读集中的事实部分，包括实体、简化的维基百科引言部分和有趣的事实。
article: 双方阅读集中共同的华盛顿邮报文章，包括URL和文章的各个部分。

维基百科数据格式

src/wiki/wiki.json 包含简化和总结的维基百科引言部分，用于构建阅读集。

搜集汇总

数据集介绍

构建方式

Topical-Chat数据集的构建基于知识驱动的开放域对话，涵盖了8个广泛的主题。该数据集通过Amazon Mechanical Turk平台招募的对话参与者进行对话收集，每个对话参与者在对话前会接收到特定的阅读材料。这些阅读材料包括从Wikipedia和Reddit等来源获取的知识片段，并通过`build.py`脚本进行整合。对话的配置方式采用随机知识配置，以确保对话双方的知识对称性或不对称性，从而生成多样化的对话内容。

特点

Topical-Chat数据集的显著特点在于其知识驱动的对话设计，确保对话内容具有深度和广度。数据集包含了两种主要文件类型：对话记录和阅读材料集。对话记录详细记录了每轮对话的内容、情感、知识来源及对话质量评分，而阅读材料集则提供了对话双方所接触的知识片段。此外，数据集还通过不同的知识配置策略，确保了对话的多样性和复杂性。

使用方法

使用Topical-Chat数据集时，用户首先需要克隆GitHub仓库并安装所需的依赖包。通过运行`build.py`脚本，用户可以生成包含阅读材料的JSON文件。数据集的对话记录和阅读材料集分别存储在`conversations/`和`reading_sets/post-build/`目录下。用户可以根据需要加载这些JSON文件，进行对话生成、情感分析、知识推理等相关研究。数据集的详细使用方法和实验结果可参考相关论文。

背景与挑战

背景概述

Topical-Chat数据集由Karthik Gopalakrishnan等人于2019年引入，旨在推动知识驱动型开放域对话的研究。该数据集的核心研究问题是如何在对话中有效整合广泛的知识背景，以提升对话的自然性和信息量。通过利用Amazon Mechanical Turk平台，研究人员收集了大量基于8个广泛主题的人类对话数据，这些对话没有明确的参与者角色定义。Topical-Chat不仅为对话系统提供了丰富的语料库，还通过引入知识配置的概念，模拟了不同程度的知识对称性或不对称性，从而为对话生成模型提供了多样化的训练和评估环境。

当前挑战

Topical-Chat数据集在构建过程中面临多项挑战。首先，如何从多个知识源（如Wikipedia和Reddit）中高效提取并整合相关知识，以确保对话内容的知识丰富性和准确性，是一个技术难题。其次，数据集的多样性要求对话双方在知识配置上具有不同的对称性，这增加了数据收集和处理的复杂性。此外，对话质量的评估也是一个挑战，需要通过多维度的评价指标（如对话评分和情感标注）来确保数据集的质量。最后，如何在不失真的情况下处理和存储大规模的对话数据，也是该数据集构建过程中需要解决的问题。

常用场景

经典使用场景

Topical-Chat数据集的经典使用场景主要集中在知识驱动的开放域对话系统研究中。该数据集通过模拟人类对话，提供了丰富的对话内容和背景知识，使得研究者能够训练和评估对话系统在不同主题下的表现。通过分析对话中的知识引用和情感表达，研究者可以探索如何构建更加智能和自然的对话代理，从而提升用户体验。

实际应用

在实际应用中，Topical-Chat数据集可用于开发智能客服、虚拟助手等对话系统。通过利用数据集中的多主题对话和知识背景，系统能够更好地理解用户需求，提供更加个性化和知识丰富的回答。此外，该数据集还可用于教育领域，帮助学生通过与虚拟助手的对话学习新知识，提升学习效率。

衍生相关工作

基于Topical-Chat数据集，研究者们开展了多项相关工作，包括对话生成模型的改进、知识整合策略的研究以及情感分析模型的优化。例如，有研究通过分析数据集中的对话内容，提出了新的知识嵌入方法，以提升对话系统的知识表达能力。此外，还有研究利用数据集中的情感标注，开发了更加智能的情感识别与响应系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集