CMU Document Grounded Conversations Dataset

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/festvox/datasets-CMU_DoG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含基于特定文档（如流行电影的维基百科文章）的文本对话。数据集共有4112个对话，平均每个对话有21.43轮。这些对话不仅提供了相关的聊天历史，还提供了模型可以利用的信息源。数据集还描述了两种神经架构，用于生成下一个响应的任务，并评估了模型的参与度和流畅性。

This dataset comprises text-based dialogues derived from specific documents, such as Wikipedia articles on popular films. It contains a total of 4,112 dialogues, with an average of 21.43 turns per dialogue. These dialogues not only provide relevant chat histories but also include information sources that models can utilize. The dataset also describes two neural architectures for the task of generating the next response and evaluates the models' engagement and fluency.

创建时间：

2018-08-23

原始信息汇总

CMU Document Grounded Conversations Dataset 概述

数据集描述: 本数据集包含基于特定文档的文本对话，主要围绕流行电影的维基百科文章展开。数据集共包含4112个对话，平均每对话21.43轮。
文档类型: 对话所基于的文档为关于流行电影的维基百科文章。
对话数量: 4112个对话。
平均轮数: 每对话平均21.43轮。

数据集统计

总对话数: 4112
参与用户数: 4929
对话评级:
- Rate 1: 低BLEU分数(< 0.1)或轮数少于10轮的对话。
- Rate 2: 不符合Rate 1或Rate 3的对话。
- Rate 3: 超过12轮且BLEU分数超过一个标准差的对话。

评级统计:

统计项评级	Rate 1	Rate 2	Rate 3
对话总数	1443	2142	527
总发言数	28536	80104	21360
平均/标准差发言数	19.77±13.68	35.39±8.48	40.53±12.92
平均/标准差发言长度	7.51±50.19	10.56±8.51	16.57±15.23

数据格式

对话数据

存储位置: 所有对话数据文件位于Conversations文件夹，按训练/验证/测试分割。
文件格式: JSON格式。
文件内容:
- date: 文件创建时间。
- history: 包含整个聊天历史的JSON对象列表。
- rating: 对话质量评级，1-3。
- uid1response, uid2response: 用户完成对话后的状态和响应。
- user1_id, user2_id: 用户ID。
- status: 对话状态，0表示异常结束，1表示正常结束。
- whoSawDoc: 查看文档的用户标识。
- wikiDocumentIdx: 维基文档索引。

维基文档数据

存储位置: 所有维基文档数据文件位于WikiData文件夹。
文件格式: JSON格式。
文件内容:
- 0, 1, 2, 3: 电影的介绍和关键场景。
- cast, critical_response, director, genre, introduction, movieName, rating, year: 电影相关信息。
- wikiDocumentIdx: 维基文档索引，用于映射到对话文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对维基百科电影文章的深入利用，旨在创建以文档为中心的对话数据。研究者通过精心设计，将电影相关的维基百科文章作为对话的背景信息，从而生成围绕特定文档内容的对话。数据集中的每段对话都与特定的维基百科文章相关联，确保对话内容与文档信息紧密结合。这种构建方式不仅为对话提供了丰富的上下文信息，还为模型提供了可参考的知识源，从而提升了对话的自然性和连贯性。

特点

该数据集的显著特点在于其以文档为中心的对话设计，使得每段对话都紧密围绕特定的维基百科电影文章展开。数据集包含了4112段对话，平均每段对话有21.43个回合，提供了丰富的对话历史和上下文信息。此外，数据集还根据对话的质量进行了评级，分为三个等级，分别对应不同的BLEU分数和对话回合数，从而为研究者提供了多层次的分析和模型训练数据。

使用方法

该数据集适用于多种自然语言处理任务，尤其是对话生成和文档驱动的对话系统。研究者可以通过加载数据集中的对话文件和维基百科文档文件，进行对话生成模型的训练和评估。数据集提供了详细的对话历史、用户信息和文档索引，使得模型能够利用这些信息生成更加连贯和相关的对话响应。此外，数据集还提供了对话的评级信息，研究者可以根据不同的评级进行有针对性的模型优化和性能评估。

背景与挑战

背景概述

CMU Document Grounded Conversations Dataset 是由Kangyan Zhou、Shrimai Prabhumoye和Alan W Black于2018年在EMNLP会议上提出的一个专注于基于文档的对话数据集。该数据集的核心研究问题是如何在对话中有效利用文档内容，特别是通过维基百科关于流行电影的文章来引导对话。数据集包含了4112个对话，平均每个对话有21.43个回合，旨在为生成相关且流畅的对话提供丰富的信息源。这一数据集的提出不仅为对话生成模型提供了新的基准，还为研究如何在对话中嵌入和利用外部知识提供了宝贵的资源。

当前挑战

CMU Document Grounded Conversations Dataset 面临的挑战主要集中在两个方面。首先，如何在对话中有效地整合和利用文档内容，以生成更具吸引力和流畅性的回复，是一个复杂的问题。其次，数据集的构建过程中，如何确保对话的质量和多样性，特别是在处理用户反馈和对话终止情况时，也是一个重要的挑战。此外，数据集的分割和评级标准（如BLEU分数和对话回合数）需要精确设计，以确保模型的评估能够准确反映其在实际应用中的表现。

常用场景

经典使用场景

CMU Document Grounded Conversations Dataset 主要用于基于文档的对话生成任务。该数据集通过提供与特定维基百科文章相关的对话，使得模型能够在生成对话时参考文档内容，从而提升对话的连贯性和信息相关性。经典的使用场景包括构建基于文档的对话系统，其中模型不仅需要理解对话历史，还需从文档中提取相关信息以生成更合适的回复。

解决学术问题

该数据集解决了传统对话生成模型中信息孤立的问题，特别是在开放域对话中，模型往往难以维持长对话的连贯性和信息一致性。通过引入文档作为对话的背景知识，模型能够更好地理解对话上下文，生成更具信息性和连贯性的回复。这一创新为对话系统研究提供了新的方向，推动了基于知识的对话生成技术的发展。

衍生相关工作

基于该数据集，研究者们开发了多种神经网络架构，用于提升对话生成的质量和连贯性。例如，一些研究工作探索了如何更有效地将文档信息融入对话生成模型中，另一些则关注于如何评估生成的对话在信息性和流畅性上的表现。这些衍生工作不仅推动了对话生成技术的发展，也为其他基于知识的自然语言处理任务提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集