five

chat_qd_dataset_extended

收藏
Hugging Face2025-05-11 更新2025-05-12 收录
下载链接:
https://huggingface.co/datasets/bgunlp/chat_qd_dataset_extended
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个对话数据集,包含问题、问题段落、问题细节以及对话内容等信息。数据集分为训练集和验证集,可用于自然语言处理中的对话系统训练和评估。

This is a dialogue dataset that encompasses various types of information including questions, question paragraphs, question details and dialogue content. The dataset is split into training and validation subsets, and can be used for the training and evaluation of dialogue systems in the field of Natural Language Processing (NLP).
创建时间:
2025-05-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: chat_qd_dataset_extended
  • 发布者: bgunlp
  • 下载大小: 9,183,630 字节
  • 数据集大小: 130,098,463 字节

数据集结构

特征

  • id: 字符串类型,唯一标识符
  • db_id: 字符串类型,数据库标识符
  • question: 字符串类型,问题文本
  • qpl: 字符串序列
  • qd: 字符串序列
  • conversations: 列表类型,包含以下字段:
    • content: 字符串类型,对话内容
    • role: 字符串类型,角色标识

数据划分

  • 训练集 (train):
    • 样本数量: 18,330
    • 大小: 110,957,274 字节
  • 验证集 (validation):
    • 样本数量: 3,297
    • 大小: 19,141,189 字节

配置文件

  • 默认配置 (default):
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
chat_qd_dataset_extended数据集通过结构化方式构建,包含18330条训练样本和3297条验证样本。每条数据记录均以唯一标识符id和数据库标识db_id为索引,核心内容由自然语言问题question、问题逻辑表示qpl序列、问题分解qd序列以及多轮对话conversations组成。对话部分采用角色-内容对形式存储,确保对话上下文的完整性。数据以标准JSON格式分train/validation两个子集存储,总规模达130MB。
特点
该数据集突出表现为多维度的问题表示体系,既保留原始自然语言问题,又包含结构化的问题逻辑表示qpl和问题分解qd序列。对话数据采用角色轮换的对话树结构,精准记录每轮对话的发言者身份和内容。数据规模适中且经过严格划分,训练集与验证集比例约为5.5:1,既满足模型训练需求,又能有效评估模型泛化能力。特征字段设计兼顾机器可处理性与语义完整性。
使用方法
使用该数据集时,可通过HuggingFace数据集库直接加载默认配置,自动获取预处理好的训练和验证分割。qpl与qd序列适用于研究问题解析与逻辑推理任务,conversations字段支持对话系统端到端训练。建议结合transformer架构处理序列数据,利用role字段区分对话角色。验证集可用于评估模型在问题分解、逻辑推理和多轮对话维持等任务上的表现。
背景与挑战
背景概述
chat_qd_dataset_extended数据集是针对自然语言处理领域中的对话系统与查询分解任务而构建的专项语料库。随着大语言模型在多轮对话和复杂查询理解任务中的广泛应用,如何提升模型对用户意图的细粒度解析能力成为学界关注焦点。该数据集由专业研究团队于2023年构建,其核心价值在于提供了包含问题分解逻辑(qpl)和问题依赖关系(qd)的结构化标注,为研究对话状态跟踪和语义解析提供了重要实验基准。数据集的创新性体现在将传统单轮问答扩展至多轮对话场景,推动了对话系统在医疗咨询、客服机器人等垂直领域的应用进展。
当前挑战
该数据集面临的领域挑战主要来自复杂语义的层次化解析,包括多跳问题的逻辑链重建、隐式依赖关系的显式化标注等关键技术难题。在构建过程中,标注团队需要克服自然语言歧义性带来的标注一致性难题,特别是对于qpl序列中逻辑连接词与qd序列中依赖权重的精确标注。数据分布的平衡性也构成挑战,需确保不同复杂度的问题(如包含2-5个分解子问题)在训练集和验证集中具有合理占比。此外,对话轮次与对应查询分解结果的动态匹配机制,要求标注者同时具备语言学知识和领域专业知识。
常用场景
经典使用场景
在自然语言处理领域,chat_qd_dataset_extended数据集因其独特的结构设计而广泛应用于对话系统的训练与评估。该数据集通过包含多轮对话、问题分解逻辑(qpl)和问题依赖关系(qd)等特征,为研究者提供了丰富的上下文信息,特别适合用于训练能够理解复杂对话流程的智能助手。其经典使用场景包括开放域对话生成、任务型对话系统优化以及对话逻辑推理能力的基准测试。
解决学术问题
该数据集有效解决了对话系统中长期存在的上下文连贯性保持和复杂意图理解两大核心难题。通过标注的问题分解逻辑和依赖关系,研究者能够深入分析多轮对话中的语义关联模式,为构建具有逻辑推理能力的对话模型提供数据支撑。其意义在于突破了传统单轮问答数据集的局限性,推动了对话系统从简单模式匹配向深度语义理解的技术转型。
衍生相关工作
围绕该数据集已产生多项重要研究成果,包括基于图神经网络的对话状态跟踪方法、层次化问题分解算法等。部分团队利用其qpl标注开发了对话逻辑可视化工具,而另一些研究则专注于挖掘qd关系以提升多跳问答性能。这些衍生工作共同推动了对话系统可解释性和复杂问题处理能力的提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作