five

thu-coai/kd_conv_with_kb

收藏
Hugging Face2024-05-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/thu-coai/kd_conv_with_kb
下载链接
链接失效反馈
官方服务:
资源简介:
KdConv是一个中文多领域知识驱动对话数据集,包含了电影、音乐和旅行三个领域的对话数据。数据集包含4.5K个对话和86K个话语,平均每个对话有19轮。这些对话涉及深入的主题讨论和自然的话题转换,适用于多轮对话建模和知识库设置的任务。数据集的结构包括对话数据和知识库数据,对话数据包含多个轮次的消息和相关的知识图谱三元组,知识库数据则包含知识图谱的三元组信息。数据集分为训练集、验证集和测试集,知识库数据只有训练集。

KdConv是一个中文多领域知识驱动对话数据集,包含了电影、音乐和旅行三个领域的对话数据。数据集包含4.5K个对话和86K个话语,平均每个对话有19轮。这些对话涉及深入的主题讨论和自然的话题转换,适用于多轮对话建模和知识库设置的任务。数据集的结构包括对话数据和知识库数据,对话数据包含多个轮次的消息和相关的知识图谱三元组,知识库数据则包含知识图谱的三元组信息。数据集分为训练集、验证集和测试集,知识库数据只有训练集。
提供机构:
thu-coai
原始信息汇总

数据集概述

数据集名称: KdConv

数据集描述: KdConv是一个中文多领域知识驱动对话数据集,旨在通过多轮对话与知识图谱的结合,支持多轮知识驱动的对话建模。该数据集包含4.5K对话,来自电影、音乐和旅行三个领域,共计86K话语,平均每轮对话19.0次。

支持的任务: 多轮对话建模、知识驱动对话。

语言: 中文

许可证: Apache License 2.0

多语言性: 单语(中文)

数据集大小:

  • 旅行对话:训练集1200例,测试集150例,验证集150例,总大小4652610字节。
  • 旅行知识库:训练集1154例,总大小1517024字节。
  • 音乐对话:训练集1200例,测试集150例,验证集150例,总大小4441109字节。
  • 音乐知识库:训练集4441例,总大小5980643字节。
  • 电影对话:训练集1200例,测试集150例,验证集150例,总大小6708886字节。
  • 电影知识库:训练集8090例,总大小10500882字节。
  • 所有对话:训练集3600例,测试集450例,验证集450例,总大小15802341字节。
  • 所有知识库:训练集13685例,总大小17998529字节。

数据集结构:

  • 对话数据字段:

    • name: 对话的起始话题(实体)
    • domain: 样本所属的领域,分类值为{travel, film, music}
    • messages: 对话中的所有轮次列表,每轮包含:
      • message: 话语
      • attrs: 话语引用的知识图谱三元组列表,每个三元组包含:
        • name: 头部实体
        • attrname: 关系
        • attrvalue: 尾部实体
  • 知识库数据字段:

    • head_entity: 头部实体
    • kb_triplets: 对应的三元组列表
    • domain: 样本所属的领域,分类值为{travel, film, music}

数据分割:

  • 对话数据: 分为训练集、验证集和测试集。
  • 知识库数据: 仅包含训练集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作