DocTalk
收藏arXiv2025-07-08 更新2025-07-10 收录
下载链接:
https://huggingface.co/datasets/AmazonScience/DocTalk
下载链接
链接失效反馈官方服务:
资源简介:
DocTalk是一个多轮预训练对话语料库,包含超过730k长的对话,由南洋理工大学和亚马逊的研究人员创建。该数据集通过将多个相关文档转换为一个扩展的多轮、多主题信息寻求对话来合成会话数据。数据集的大小为730,707个对话,每个对话平均包含82.2个轮次,其中助手的话语平均长度为87.3个单词,用户的话语平均长度为26.5个单词。数据集创建过程分为三个阶段:文档图构建、对话图构建和用户话语生成。DocTalk旨在解决大型语言模型在多轮对话任务中的能力与训练范式之间的潜在不匹配问题,通过在预训练期间接触合成对话结构来增强LLM的基本多轮能力,如上下文记忆和理解。DocTalk适用于会话AI助手,以提供动态和自然的对话,并解决现实世界交互中的多轮、多主题对话需求。
提供机构:
南洋理工大学1, 亚马逊2
创建时间:
2025-07-08
原始信息汇总
数据集概述:DocTalk
基本信息
- 名称: DocTalk
- 许可证: CC-BY-SA-3.0
- 任务类别: 文本生成、问答、文本到文本生成
- 语言: 英语
- 规模: 100K<n<1M
- 论文链接: https://arxiv.org/abs/2507.05750
数据集描述
DocTalk是一个大规模合成对话语料库,通过三阶段流程将相关的Wikipedia文档集群转化为多轮、多主题的信息寻求对话。
生成流程
- 文档图构建: 通过加权随机游走在有向无环图上采样最多三篇相关的Wikipedia文章。
- 对话图构建: 将每篇文章分段,构建完全连接的段落图,并通过微调的对话奖励模型采样助手话语。
- 用户话语生成: 使用Mistral-2-7B-Instruct模型生成用户问题。
关键统计
- 对话总数: 730,707
- 每对话平均轮数: 82.2
- 助手话语平均长度: 87.3词
- 用户话语平均长度: 26.5词
- 每对话平均文档转换次数: 23.3
数据集结构
每个样本为JSON对象,包含:
- id: 唯一对话标识符
- dialog: 对话轮次列表,每轮包含:
- role: "user"或"assistant"
- src_document: Wikipedia文章标题
- text: 话语文本
- turn: 对话轮次索引
样本示例
基于三篇Wikipedia文章的对话示例:
- 用户: 多伦多总医院位于何处?有何特点?
- 助手: 多伦多总医院是加拿大安大略省多伦多市的一家主要教学医院...
- 用户: 多伦多大学医学院的医学博士项目后两年涵盖哪些专业?
下载方式
python from datasets import load_dataset dataset = load_dataset("AmazonScience/DocTalk")
引用
bibtex @misc{lee2025doctalkscalablegraphbaseddialogue, title={DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities}, author={Jing Yang Lee and Hamed Bonab and Nasser Zalmout and Ming Zeng and Sanket Lokegaonkar and Colin Lockard and Binxuan Huang and Ritesh Sarkhel and Haodong Wang}, year={2025}, eprint={2507.05750}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.05750}, }
搜集汇总
数据集介绍

构建方式
DocTalk数据集的构建采用了一种创新的三阶段流程。首先,通过构建文档图(GDoc)从相关文档中提取主题关联性,采用基于出度中心性的随机游走策略采样3篇相关文档。其次,构建对话图(GDial)将文档段落重新排序为多轮对话,利用经过微调的对话奖励模型(CR)评估语句连贯性,指导对话流的生成。最后,使用Mistral-2-7b-Instruct模型生成用户提问,确保仅用户端为合成内容,有效降低幻觉风险。整个流程在Wikipedia语料上实现了70%的成本优化,最终生成包含73万条对话、平均82轮次的大规模语料库。
特点
该数据集的核心特征体现在多主题动态转换的对话结构上。每个对话平均包含23.3次主题切换,模拟真实人机交互中的话题跳跃特性。助理回答平均长度达87词,富含实体和事实细节,而用户提问则保持26.5词的精准性。通过文档图的拓扑关联保障主题连贯性,配合对话图的段落重组机制,实现了跨文档的知识关联。人工评估显示其上下文相关性得分达0.94(Krippendorff's α),显著优于同类数据集。独特的非对称生成策略(仅合成用户提问)在保持事实准确性的同时,实现了8亿token规模的高效扩展。
使用方法
该数据集专为增强LLMs的多轮对话能力设计,建议以25%比例与常规预训练数据混合使用。在Mistral-7B上的实验表明,采用3e-5至3e-6的退火学习率进行8000步训练(约300亿token)可获得最佳效果。评估时推荐结合CoQA数据集衡量上下文记忆能力,并配合创新的LLM-as-a-judge框架检验指代消解性能。使用需注意:后期对话轮次可能出现连贯性下降,建议截取前30轮作为高质量子集(DocTalk*),其在CoQA评测中F1值提升达40%。长期上下文任务如MuSiQue显示该数据能显著改善模型的长程依赖处理能力。
背景与挑战
背景概述
DocTalk是由Nanyang Technological University和Amazon的研究团队于2025年提出的一个大规模多轮对话数据集,旨在解决大型语言模型(LLM)在预训练数据中对话结构不足的问题。该数据集通过创新的数据合成流程,将维基百科文章转化为多主题、多轮次的信息寻求对话,包含超过73万条长对话。DocTalk的创建填补了LLM预训练数据中对话数据的空白,显著提升了模型在上下文记忆和理解方面的能力,为对话系统的研究提供了重要资源。
当前挑战
DocTalk面临的挑战主要包括两个方面:首先,在领域问题方面,现有的对话数据集多集中于单一主题,难以模拟真实世界中多主题切换的复杂对话场景,DocTalk通过构建文档图和对话图来解决这一挑战;其次,在构建过程中,如何确保生成对话的连贯性和多样性是一大难题,研究团队通过设计对话奖励模型(CR)和限制LLM生成内容的比例,有效降低了幻觉风险并控制了生成成本。
常用场景
经典使用场景
DocTalk数据集在自然语言处理领域中被广泛用于增强大型语言模型(LLM)的多轮对话能力。通过将维基百科文章转化为多轮、多主题的信息寻求对话,DocTalk为模型提供了丰富的预训练数据,特别适用于提升模型在上下文记忆和理解方面的表现。这一数据集在对话系统开发、信息检索和知识图谱构建等任务中展现了卓越的适用性。
实际应用
在实际应用中,DocTalk被用于开发智能客服、虚拟助手和教育工具等对话系统。其多轮对话结构使得模型能够更好地理解用户意图,并在复杂的信息寻求场景中提供连贯的回应。此外,DocTalk还为跨文档推理和知识密集型对话任务提供了高质量的训练数据,推动了对话AI技术的商业化落地。
衍生相关工作
DocTalk的发布催生了一系列相关研究,如基于对话图的对话生成方法、多主题对话合成技术以及上下文记忆增强模型。这些工作进一步优化了对话数据的合成流程,并在指代消解、话题连贯性等具体任务上取得了显著进展。同时,DocTalk也为后续的对话数据集(如HybriDialogue、InScitic)提供了重要的设计灵感。
以上内容由遇见数据集搜集并总结生成



