Conversational-Reasoning/Topical-Chat
收藏Hugging Face2023-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Conversational-Reasoning/Topical-Chat
下载链接
链接失效反馈官方服务:
资源简介:
Topical-Chat是一个基于知识的对话数据集,涵盖了8个广泛的主题。数据集包含两种类型的文件:对话文件和阅读集文件。对话文件记录了Amazon Mechanical Turk工作者之间的对话,而阅读集文件包含了提供给Turkers的知识部分。数据集被分为训练集、验证集(频繁和稀有)和测试集(频繁和稀有),并提供了详细的统计信息。此外,README还描述了对话文件的格式和配置类型,以及如何引用该数据集。
Topical-Chat是一个基于知识的对话数据集,涵盖了8个广泛的主题。数据集包含两种类型的文件:对话文件和阅读集文件。对话文件记录了Amazon Mechanical Turk工作者之间的对话,而阅读集文件包含了提供给Turkers的知识部分。数据集被分为训练集、验证集(频繁和稀有)和测试集(频繁和稀有),并提供了详细的统计信息。此外,README还描述了对话文件的格式和配置类型,以及如何引用该数据集。
提供机构:
Conversational-Reasoning
原始信息汇总
Topical-Chat 数据集概述
数据集简介
Topical-Chat 是一个知识引导的人与人对话数据集,涵盖8个广泛的主题,对话双方没有明确的角色定义。
数据组成
数据集主要包含两种类型的文件:
- 对话文件:JSON 文件,包含 Amazon Mechanical Turk 工作者之间的对话。
- 阅读集文件:JSON 文件,包含呈现给对话者的知识内容。
数据统计
| 统计项 | 训练集 | 验证集(常见) | 验证集(罕见) | 测试集(常见) | 测试集(罕见) | 总计 |
|---|---|---|---|---|---|---|
| 对话数量 | 8628 | 539 | 539 | 539 | 539 | 10784 |
| 话语数量 | 188378 | 11681 | 11692 | 11760 | 11770 | 235281 |
| 每对话平均轮次 | 21.8 | 21.6 | 21.7 | 21.8 | 21.8 | 21.8 |
| 每话语平均长度 | 19.5 | 19.8 | 19.8 | 19.5 | 19.5 | 19.6 |
数据分割
数据分为五个不同的组:训练集、验证集(常见)、验证集(罕见)、测试集(常见)和测试集(罕见)。常见集包含在训练集中频繁出现的实体,而罕见集包含在训练集中不常见的实体。
配置类型
每个对话收集时,应用了预定义配置列表中的随机知识配置,以构建一对阅读集呈现给合作的 Turkers。配置旨在在合作伙伴 Turkers 之间施加不同程度的知识对称性或不对称性,从而收集到各种对话。
对话文件格式
每个 JSONL 文件的格式如下: json { "<conversation_id>": { "article_url": "<article url>", "config": "<config>", # 配置类型 A, B, C, D "content": [ { "agent": "agent_1", # 或 "agent_2" "message": "<message text>", "sentiment": "<text>", "knowledge_source": ["AS1", "Personal Knowledge", ...], "turn_rating": "Poor" }, ... ], "conversation_rating": { "agent_1": "Good", "agent_2": "Excellent" } }, ... }
- conversation_id:对话的唯一标识符。
- article_url:与对话相关的华盛顿邮报文章的 URL。
- config:应用于获取一对阅读集的知识配置。
- content:对话轮次的顺序列表。
- agent:生成消息的 Turker 标识符。
- message:代理生成的消息。
- sentiment:消息情感的自注释。
- knowledge_source:用于生成此消息的阅读集部分的自我注释。
- turn_rating:伙伴对消息质量的注释。
- conversation_rating:对话质量的自注释。
- agent_1:Turker 1 对对话的评价。
- agent_2:Turker 2 对对话的评价。
搜集汇总
数据集介绍

构建方式
在开放域对话系统研究领域,构建高质量的知识驱动对话数据集至关重要。Topical-Chat数据集通过亚马逊众包平台,组织成对的参与者围绕八个广泛主题进行自然对话。其核心创新在于设计了多样化的知识配置方案,随机为对话双方分配包含维基百科摘要、趣味事实和华盛顿邮报文章片段的阅读材料,从而系统性地控制双方知识背景的对称或不对称程度,以模拟真实世界中信息差异化的交流场景。
使用方法
对于研究人员而言,Topical-Chat为训练与评估开放域、知识驱动的对话模型提供了丰富资源。数据集已预分为训练集、验证集(常见与罕见)和测试集(常见与罕见),便于进行标准的模型开发与性能评测。用户可通过解析提供的JSON格式对话文件,获取完整的对话内容、知识配置、质量评分及关联的知识片段。该数据集尤其适用于探究模型如何利用外部知识生成连贯、信息丰富的回复,以及在不同知识不对称配置下的对话行为研究。
背景与挑战
背景概述
在开放域对话系统研究领域,知识驱动的对话生成一直是核心挑战之一。为应对这一需求,亚马逊研究人员于2019年推出了Topical-Chat数据集,该数据集由Karthik Gopalakrishnan等人构建,旨在促进基于知识的开放域对话模型的发展。数据集围绕八个广泛主题,通过亚马逊众包平台收集了超过一万次人类对话,并创新性地引入了知识配置机制,以模拟对话伙伴间不同程度的知识对称性。这一工作显著推动了对话系统从简单闲聊向深度、信息丰富的交流演进,为后续研究提供了宝贵的基准资源。
当前挑战
Topical-Chat数据集致力于解决知识驱动开放域对话生成的挑战,其核心在于如何使模型在对话中自然、连贯地融入外部知识,并处理知识不对称场景。构建过程中的挑战主要体现在知识源的整合与对话质量的控制上:数据集融合了维基百科摘要、华盛顿邮报文章及社交媒体趣味事实等多种异构知识,需确保信息准确性与表述一致性;同时,通过精心设计的众包任务与多轮评分机制来保障对话的流畅性与信息量,避免生成空洞或偏离主题的回应。这些挑战共同塑造了数据集的复杂性与研究价值。
常用场景
经典使用场景
在开放域对话系统研究中,Topical-Chat数据集常被用于训练和评估知识驱动的对话生成模型。该数据集通过涵盖八个广泛主题的知识背景,模拟了人类在真实对话中基于外部知识进行信息交换的场景。研究者利用其丰富的对话轮次和知识标注,能够深入探索模型如何整合结构化知识以生成连贯、信息丰富的回应,从而推动开放域对话系统向更具深度和上下文感知能力的方向发展。
解决学术问题
Topical-Chat数据集有效解决了开放域对话系统中知识融合与一致性的核心学术挑战。传统对话模型往往缺乏外部知识支撑,导致回应空洞或事实错误,而该数据集通过提供基于维基百科和新闻文章的知识片段,为模型提供了可靠的信息来源。它促进了知识检索、知识选择与自然语言生成的联合优化研究,帮助学术界构建能够进行多轮、有信息量的对话系统,显著提升了对话的实质性和用户满意度。
实际应用
在实际应用中,Topical-Chat数据集为开发智能客服、虚拟助手和教育聊天机器人提供了关键的训练资源。这些系统需要处理用户关于特定主题的深入询问,而数据集中的知识背景和多样化的对话配置,使得模型能够学习如何根据不对称的知识分布进行有效沟通。例如,在客户服务场景中,助手可以依据产品知识库提供准确解答,从而增强交互的自然性和效率,改善用户体验。
数据集最近研究
最新研究方向
在开放域对话系统领域,Topical-Chat数据集以其知识驱动的对话结构,为前沿研究提供了重要支撑。当前研究聚焦于提升对话模型的知识融合与推理能力,探索如何基于不对称知识配置生成连贯且信息丰富的回应。热点方向包括利用大语言模型进行上下文感知的知识检索与整合,以应对罕见实体对话的挑战,推动对话系统向更自然、更具深度的交互演进。该数据集的影响在于为评估模型在复杂知识场景下的表现设立了基准,促进了开放域对话技术向实用化迈进。
以上内容由遇见数据集搜集并总结生成



