CCKS2019_Comp

github2023-03-16 更新2024-05-31 收录

下载链接：

https://github.com/cytan17726/KBQA_QueryGraphGeneration

下载链接

链接失效反馈

官方服务：

资源简介：

一份含有多种复杂句的中文知识图谱问答数据集

A Chinese knowledge graph question answering dataset that incorporates multiple types of complex sentences

创建时间：

2022-08-08

原始信息汇总

数据集概述

数据集名称

中文知识图谱问答数据集 (/CCKS2019_Comp)

数据集内容

含有多种复杂句的中文知识图谱问答数据

数据集用途

用于知识图谱问答的查询图生成方法的研究与实验

数据集相关性能指标

查询图生成性能:
- Yih等: 85.13 (CCKS2019), 71.07 (CCKS2019-Comp)
- Luo等: 86.23 (CCKS2019), 71.93 (CCKS2019-Comp)
- Ours: 89.47 (CCKS2019), 86.91 (CCKS2019-Comp)
KBQA性能:
- Yih等: 72.17 (CCKS2019), 59.50 (CCKS2019-Comp)
- Luo等: 73.29 (CCKS2019), 60.66 (CCKS2019-Comp)
- Ours: 73.86 (CCKS2019), 73.39 (CCKS2019-Comp)

数据集相关资源

预处理数据与模型:
- 输入数据 (/data/dataset)
- 关系预测模型 (/model/que_rel_sim)
查询图生成-阶段结果 (/data/candidates)
查询图排序-训练数据 (/data/train_data/graph_ranker)
查询图排序-已训练模型 (/model/rank_model)
查询图排序-打分结果 (/data/scores)

数据集构建与使用

数据库构建: 基于CCKS2019中文知识图谱问答数据构建KB，使用Mysql数据库进行存储与检索
预处理: 已完成，包括节点识别和关系预测
查询图生成: 已完成，可修改文件内参数以适应不同数据集
查询图排序: 已完成，包括序列化、转化为模型输入数据、训练排序模型和候选打分

数据集评估

查询图生成评估: 使用cal_recall_with_multi_types.py脚本进行评估
查询图排序评估: 使用eval_test.sh脚本进行评估，需修改相关配置文件

搜集汇总

数据集介绍

构建方式

CCKS2019_Comp数据集的构建基于中文知识图谱问答任务，旨在支持复杂句的查询图生成。该数据集通过整合CCKS2019中文知识图谱问答竞赛的数据，并结合PKUBASE知识库进行扩展，确保了数据的多样性和复杂性。数据预处理阶段包括节点识别和关系预测，其中关系预测模型已预先训练完成。查询图生成和排序模块则通过多阶段的处理流程，进一步优化了查询图的生成和排序效果。

使用方法

使用CCKS2019_Comp数据集时，首先需要配置Python环境并安装相关依赖库。数据集的预处理和查询图生成模块已封装为可执行的脚本，用户只需按照README文件中的指示调整参数并运行相应脚本即可。查询图排序模块提供了已训练好的模型和打分结果，用户可以直接使用或根据需求重新训练模型。最后，通过提供的评价脚本，用户可以方便地对查询图生成和排序结果进行评估。

背景与挑战

背景概述

CCKS2019_Comp数据集由谈川源、贾永辉、陈跃鹤和陈文亮等研究人员在2019年构建，旨在支持知识图谱问答系统中的查询图生成方法研究。该数据集专注于中文知识图谱问答，包含多种复杂句型的问答对，为研究者提供了一个丰富的实验平台。通过该数据集，研究人员能够深入探讨查询图生成在知识图谱问答中的应用，推动了该领域的技术进步。数据集的相关研究成果已在CCKS2022会议上发表，进一步提升了其在学术界的影响力。

当前挑战

CCKS2019_Comp数据集在构建和应用过程中面临多重挑战。首先，知识图谱问答领域本身具有高度复杂性，尤其是在处理中文语境下的多义词、歧义句和复杂句式时，模型需要具备强大的语义理解和推理能力。其次，数据集的构建过程中，如何确保问答对的多样性和覆盖范围，同时保持高质量标注，是一个技术难点。此外，查询图生成方法的优化和排序模型的训练也面临计算资源消耗大、模型泛化能力不足等问题。这些挑战不仅影响了数据集的广泛应用，也为后续研究提供了重要的改进方向。

常用场景

经典使用场景

CCKS2019_Comp数据集在知识图谱问答系统中扮演着核心角色，特别是在查询图生成方法的研究中。该数据集通过提供一系列复杂的中文句子，使得研究者能够深入探索如何从自然语言问题中自动构建查询图，进而实现对知识图谱的高效查询。这一过程不仅涉及自然语言处理技术，还包括知识表示和推理等多个领域，为知识图谱问答系统的性能提升提供了重要支持。

解决学术问题

CCKS2019_Comp数据集解决了知识图谱问答系统中查询图生成的难题，特别是在处理复杂中文句子时的准确性和效率问题。通过该数据集，研究者能够开发和验证新的算法，以提高查询图生成的准确率和召回率，从而提升整个问答系统的性能。此外，该数据集还为研究多语言知识图谱问答系统提供了宝贵的中文语料，推动了跨语言知识图谱问答技术的发展。

实际应用

在实际应用中，CCKS2019_Comp数据集被广泛应用于智能客服、教育辅导和信息检索等领域。通过利用该数据集训练出的模型，智能客服系统能够更准确地理解用户的问题，并提供精确的答案。在教育辅导领域，该数据集帮助开发出能够自动回答学生问题的智能辅导系统，极大地提高了教学效率。此外，信息检索系统通过该数据集提升了查询的准确性和响应速度，为用户提供了更好的搜索体验。

数据集最近研究