thu-coai/kd_conv_with_kb
收藏Hugging Face2024-05-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/thu-coai/kd_conv_with_kb
下载链接
链接失效反馈官方服务:
资源简介:
KdConv是一个中文多领域知识驱动对话数据集,包含了电影、音乐和旅行三个领域的对话数据。数据集包含4.5K个对话和86K个话语,平均每个对话有19轮。这些对话涉及深入的主题讨论和自然的话题转换,适用于多轮对话建模和知识库设置的任务。数据集的结构包括对话数据和知识库数据,对话数据包含多个轮次的消息和相关的知识图谱三元组,知识库数据则包含知识图谱的三元组信息。数据集分为训练集、验证集和测试集,知识库数据只有训练集。
KdConv是一个中文多领域知识驱动对话数据集,包含了电影、音乐和旅行三个领域的对话数据。数据集包含4.5K个对话和86K个话语,平均每个对话有19轮。这些对话涉及深入的主题讨论和自然的话题转换,适用于多轮对话建模和知识库设置的任务。数据集的结构包括对话数据和知识库数据,对话数据包含多个轮次的消息和相关的知识图谱三元组,知识库数据则包含知识图谱的三元组信息。数据集分为训练集、验证集和测试集,知识库数据只有训练集。
提供机构:
thu-coai
原始信息汇总
数据集概述
数据集名称: KdConv
数据集描述: KdConv是一个中文多领域知识驱动对话数据集,旨在通过多轮对话与知识图谱的结合,支持多轮知识驱动的对话建模。该数据集包含4.5K对话,来自电影、音乐和旅行三个领域,共计86K话语,平均每轮对话19.0次。
支持的任务: 多轮对话建模、知识驱动对话。
语言: 中文
许可证: Apache License 2.0
多语言性: 单语(中文)
数据集大小:
- 旅行对话:训练集1200例,测试集150例,验证集150例,总大小4652610字节。
- 旅行知识库:训练集1154例,总大小1517024字节。
- 音乐对话:训练集1200例,测试集150例,验证集150例,总大小4441109字节。
- 音乐知识库:训练集4441例,总大小5980643字节。
- 电影对话:训练集1200例,测试集150例,验证集150例,总大小6708886字节。
- 电影知识库:训练集8090例,总大小10500882字节。
- 所有对话:训练集3600例,测试集450例,验证集450例,总大小15802341字节。
- 所有知识库:训练集13685例,总大小17998529字节。
数据集结构:
-
对话数据字段:
name: 对话的起始话题(实体)domain: 样本所属的领域,分类值为{travel, film, music}messages: 对话中的所有轮次列表,每轮包含:message: 话语attrs: 话语引用的知识图谱三元组列表,每个三元组包含:name: 头部实体attrname: 关系attrvalue: 尾部实体
-
知识库数据字段:
head_entity: 头部实体kb_triplets: 对应的三元组列表domain: 样本所属的领域,分类值为{travel, film, music}
数据分割:
- 对话数据: 分为训练集、验证集和测试集。
- 知识库数据: 仅包含训练集。



