five

ConsistentChat

收藏
github2025-09-08 更新2025-09-09 收录
下载链接:
https://github.com/chenjiawei30/ConsistentChat
下载链接
链接失效反馈
官方服务:
资源简介:
ConsistentChat是一个多轮指令数据集,包含约15,000个多轮对话和224,392个话语,通过骨架引导的多轮对话生成框架构建,旨在提高大语言模型在扩展对话中的一致性和任务完成率

ConsistentChat is a multi-turn instruction dataset containing approximately 15,000 multi-turn dialogues and 224,392 utterances. It is constructed via a skeleton-guided multi-turn dialogue generation framework, which aims to improve the consistency and task completion rate of large language models (LLMs) in extended conversations.
创建时间:
2025-09-01
原始信息汇总

ConsistentChat 数据集概述

数据集简介

ConsistentChat 是一个通过骨架引导的多轮对话生成框架构建的指令数据集,专门针对大型语言模型设计。该数据集解决了当前指令数据合成方法主要关注单轮指令而忽略跨轮一致性的问题,通过显式建模人类对话意图来约束多轮指令合成。

关键特性

  • 意图建模:将每个对话分配到九种明确定义的意图轨迹之一,确保连贯且目标导向的信息流
  • 骨架生成:构建与建模意图对齐的用户查询序列,作为约束和指导下游指令合成过程的支架
  • 两阶段构建:首先生成多轮对话查询,然后使用思维链方法生成相应的响应集

数据集规模

  • 总对话数:约15,000个多轮对话
  • 总话语数:224,392条话语
  • 生成模型:Qwen-2.5-72B-Instruct

详细统计信息

对话类型 平均话语数/对话 平均查询词数 平均响应词数 总对话数 总话语数
问题解决交互 15.39 19.64 59.09 1631 25104
教育交互 15.62 18.73 61.91 1632 25494
健康咨询交互 15.60 19.67 60.34 1633 25474
探索性交互 15.45 19.94 60.44 1615 24952
娱乐交互 15.65 20.79 56.03 1585 24808
模拟交互 15.59 19.22 56.63 1604 25002
情感支持交互 15.57 20.82 62.85 1573 24486
信息检索交互 15.40 18.99 55.58 1637 25216
交易交互 15.38 20.01 56.06 1551 23856

实验效果

在Light、TopDial和MT-Eval基准测试中,使用ConsistentChat微调的模型在聊天一致性方面实现了20-30%的提升,任务成功率最高提高了15%,显著优于在现有单轮和多轮指令数据集上训练的模型。

数据格式

数据集采用JSON格式,包含类别定义和流程定义:

  • 类别定义:包含场景和流程类型
  • 流程定义:包含具体的对话步骤序列

相关资源

  • 论文:https://arxiv.org/abs/2506.03558
  • 模型:https://huggingface.co/jiawei-ucas/Qwen-2.5-7B-ConsistentChat
  • 数据集:https://huggingface.co/datasets/jiawei-ucas/ConsistentChat

引用信息

bibtex @misc{chen2025consistentchat, title={ConsistentChat: Building Skeleton-Guided Consistent Dialogues for Large Language Models from Scratch}, author={Jiawei Chen and Xinyan Guan and Qianhao Yuan and Guozhao Mo and Weixiang Zhou and Yaojie Lu and Hongyu Lin and Ben He and Le Sun and Xianpei Han}, year={2025}, eprint={2506.03558}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.03558}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统研究领域,构建连贯的多轮对话数据集是提升大语言模型交互质量的核心挑战。ConsistentChat采用骨架引导的多轮对话生成框架,通过两阶段流程实现数据构建:首先进行意图建模,将对话归类至九种预定义的人类对话意图轨迹,确保全局结构的一致性;随后生成对话骨架,基于建模意图构建结构化的用户查询序列,作为指导后续指令合成的脚手架。该流程依托Qwen-2.5-72B-Instruct模型生成多轮查询,并采用思维链方法生成对应响应,最终形成包含约1.5万对话、22万余条语句的高质量数据集。
特点
ConsistentChat显著区别于传统单轮指令数据集,其核心特点体现在多轮对话的连贯性与任务导向性。数据集涵盖问题解决、教育咨询、健康问诊等九类对话意图,每类对话平均包含15轮以上交互,且查询与响应词汇量分布均衡。对话结构严格遵循预设的信息流模式,如问题诊断到解决方案的递进式流程,有效避免了上下文漂移现象。实验表明,基于该数据集训练的模型在对话一致性指标上提升20%-30%,任务完成率提高达15%,证明了其在复杂对话场景下的实用性与优越性。
使用方法
研究者可通过Hugging Face平台直接获取ConsistentChat数据集,其数据以JSON格式组织,清晰标注对话类别、场景及流程类型。使用时可借助LLaMA-Factory框架进行监督微调,支持全参数微调与LoRA等高效训练策略;推理阶段推荐采用vLLM库部署高性能API服务。数据集集成流程包含加载预设模板、指定对话类别与流程类型,并通过生成器批量生成符合骨架结构的对话。详细配置参数涵盖温度调节、生成长度控制等,支持自定义扩展新对话类别与场景,为多轮对话研究提供灵活可扩展的实验基础。
背景与挑战
背景概述
在大规模语言模型快速发展的背景下,多轮对话的连贯性成为制约人机交互质量的关键瓶颈。ConsistentChat数据集由中国科学院大学研究团队于2025年创建,旨在通过骨架引导的对话生成框架解决多轮指令数据中存在的语境漂移和任务完成率下降问题。该数据集包含九类明确的人类对话意图轨迹,构建了约1.5万组多轮对话和22万余条话语,显著提升了模型在Light、TopDial和MT-Eval等基准测试中的对话一致性和任务成功率,为推进连贯性对话系统的研究提供了重要数据支撑。
当前挑战
构建多轮对话数据集面临双重挑战:在领域问题层面,需要克服传统单轮指令数据缺乏跨轮次语义连贯性的局限,解决对话过程中信息流断裂和意图一致性维护的难题;在构建过程层面,需设计有效的意图建模框架来捕捉人类对话的全局结构,并通过骨架生成技术确保查询序列与预设意图轨迹的精准对齐,同时还要处理大规模语言模型生成过程中可能出现的逻辑偏差和风格不一致问题。
常用场景
经典使用场景
在多轮对话生成领域,ConsistentChat数据集通过骨架引导的对话构建机制,为大型语言模型提供了保持跨轮次一致性的训练范式。该数据集涵盖九种明确的人类对话意图轨迹,包括问题解决型、教育型、健康咨询型等交互模式,每个对话平均包含15轮以上的连贯交流。研究者通常利用该数据集训练模型在长程对话中维持上下文逻辑一致性,显著提升了多轮对话的连贯性与任务完成率。
解决学术问题
该数据集有效解决了多轮指令合成中的上下文漂移问题,通过意图建模与骨架生成两阶段框架,确保了对话流的全局结构一致性。在学术层面,它推动了对话系统在意图保持、信息流控制和任务导向对话方面的研究进展,为评估模型在多轮交互中的一致性提供了标准化基准。实验表明基于该数据集的模型在Light、TopDial和MT-Eval基准上实现了20-30%的一致性提升和15%的任务成功率增长。
衍生相关工作
该数据集衍生出了一系列关于对话一致性与意图建模的研究工作,包括基于骨架约束的对话生成方法、多轮指令微调技术以及对话一致性评估框架。相关研究扩展了其在跨领域自适应对话生成、低资源语言对话构建等方面的应用,并催生了如Qwen-2.5-7B-ConsistentChat等专用模型。这些工作共同推动了对话系统在多轮一致性保持方面的技术发展,为构建更可靠的人机交互系统提供了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作