thu-coai/kd_conv_with_kb

Name: thu-coai/kd_conv_with_kb
Creator: thu-coai
Published: 2024-05-17 05:41:39
License: 暂无描述

Hugging Face2024-05-17 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/thu-coai/kd_conv_with_kb

下载链接

链接失效反馈

官方服务：

资源简介：

KdConv是一个中文多领域知识驱动对话数据集，包含了电影、音乐和旅行三个领域的对话数据。数据集包含4.5K个对话和86K个话语，平均每个对话有19轮。这些对话涉及深入的主题讨论和自然的话题转换，适用于多轮对话建模和知识库设置的任务。数据集的结构包括对话数据和知识库数据，对话数据包含多个轮次的消息和相关的知识图谱三元组，知识库数据则包含知识图谱的三元组信息。数据集分为训练集、验证集和测试集，知识库数据只有训练集。

提供机构：

thu-coai

原始信息汇总

数据集概述

数据集名称： KdConv

数据集描述： KdConv是一个中文多领域知识驱动对话数据集，旨在通过多轮对话与知识图谱的结合，支持多轮知识驱动的对话建模。该数据集包含4.5K对话，来自电影、音乐和旅行三个领域，共计86K话语，平均每轮对话19.0次。

支持的任务： 多轮对话建模、知识驱动对话。

语言： 中文

许可证： Apache License 2.0

多语言性： 单语（中文）

数据集大小：

旅行对话：训练集1200例，测试集150例，验证集150例，总大小4652610字节。
旅行知识库：训练集1154例，总大小1517024字节。
音乐对话：训练集1200例，测试集150例，验证集150例，总大小4441109字节。
音乐知识库：训练集4441例，总大小5980643字节。
电影对话：训练集1200例，测试集150例，验证集150例，总大小6708886字节。
电影知识库：训练集8090例，总大小10500882字节。
所有对话：训练集3600例，测试集450例，验证集450例，总大小15802341字节。
所有知识库：训练集13685例，总大小17998529字节。

数据集结构：

对话数据字段：
- name: 对话的起始话题（实体）
- domain: 样本所属的领域，分类值为{travel, film, music}
- messages: 对话中的所有轮次列表，每轮包含：
  - message: 话语
  - attrs: 话语引用的知识图谱三元组列表，每个三元组包含：
    - name: 头部实体
    - attrname: 关系
    - attrvalue: 尾部实体
知识库数据字段：
- head_entity: 头部实体
- kb_triplets: 对应的三元组列表
- domain: 样本所属的领域，分类值为{travel, film, music}

数据分割：

对话数据： 分为训练集、验证集和测试集。
知识库数据： 仅包含训练集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集