CCKS2019_Comp
收藏github2023-03-16 更新2024-05-31 收录
下载链接:
https://github.com/cytan17726/KBQA_QueryGraphGeneration
下载链接
链接失效反馈官方服务:
资源简介:
一份含有多种复杂句的中文知识图谱问答数据集
A Chinese knowledge graph question answering dataset that incorporates multiple types of complex sentences
创建时间:
2022-08-08
原始信息汇总
数据集概述
数据集名称
- 中文知识图谱问答数据集 (/CCKS2019_Comp)
数据集内容
- 含有多种复杂句的中文知识图谱问答数据
数据集用途
- 用于知识图谱问答的查询图生成方法的研究与实验
数据集相关性能指标
- 查询图生成性能:
- Yih等: 85.13 (CCKS2019), 71.07 (CCKS2019-Comp)
- Luo等: 86.23 (CCKS2019), 71.93 (CCKS2019-Comp)
- Ours: 89.47 (CCKS2019), 86.91 (CCKS2019-Comp)
- KBQA性能:
- Yih等: 72.17 (CCKS2019), 59.50 (CCKS2019-Comp)
- Luo等: 73.29 (CCKS2019), 60.66 (CCKS2019-Comp)
- Ours: 73.86 (CCKS2019), 73.39 (CCKS2019-Comp)
数据集相关资源
- 预处理数据与模型:
- 输入数据 (/data/dataset)
- 关系预测模型 (/model/que_rel_sim)
- 查询图生成-阶段结果 (/data/candidates)
- 查询图排序-训练数据 (/data/train_data/graph_ranker)
- 查询图排序-已训练模型 (/model/rank_model)
- 查询图排序-打分结果 (/data/scores)
数据集构建与使用
- 数据库构建: 基于CCKS2019中文知识图谱问答数据构建KB,使用Mysql数据库进行存储与检索
- 预处理: 已完成,包括节点识别和关系预测
- 查询图生成: 已完成,可修改文件内参数以适应不同数据集
- 查询图排序: 已完成,包括序列化、转化为模型输入数据、训练排序模型和候选打分
数据集评估
- 查询图生成评估: 使用
cal_recall_with_multi_types.py脚本进行评估 - 查询图排序评估: 使用
eval_test.sh脚本进行评估,需修改相关配置文件
搜集汇总
数据集介绍

构建方式
CCKS2019_Comp数据集的构建基于中文知识图谱问答任务,旨在支持复杂句的查询图生成。该数据集通过整合CCKS2019中文知识图谱问答竞赛的数据,并结合PKUBASE知识库进行扩展,确保了数据的多样性和复杂性。数据预处理阶段包括节点识别和关系预测,其中关系预测模型已预先训练完成。查询图生成和排序模块则通过多阶段的处理流程,进一步优化了查询图的生成和排序效果。
使用方法
使用CCKS2019_Comp数据集时,首先需要配置Python环境并安装相关依赖库。数据集的预处理和查询图生成模块已封装为可执行的脚本,用户只需按照README文件中的指示调整参数并运行相应脚本即可。查询图排序模块提供了已训练好的模型和打分结果,用户可以直接使用或根据需求重新训练模型。最后,通过提供的评价脚本,用户可以方便地对查询图生成和排序结果进行评估。
背景与挑战
背景概述
CCKS2019_Comp数据集由谈川源、贾永辉、陈跃鹤和陈文亮等研究人员在2019年构建,旨在支持知识图谱问答系统中的查询图生成方法研究。该数据集专注于中文知识图谱问答,包含多种复杂句型的问答对,为研究者提供了一个丰富的实验平台。通过该数据集,研究人员能够深入探讨查询图生成在知识图谱问答中的应用,推动了该领域的技术进步。数据集的相关研究成果已在CCKS2022会议上发表,进一步提升了其在学术界的影响力。
当前挑战
CCKS2019_Comp数据集在构建和应用过程中面临多重挑战。首先,知识图谱问答领域本身具有高度复杂性,尤其是在处理中文语境下的多义词、歧义句和复杂句式时,模型需要具备强大的语义理解和推理能力。其次,数据集的构建过程中,如何确保问答对的多样性和覆盖范围,同时保持高质量标注,是一个技术难点。此外,查询图生成方法的优化和排序模型的训练也面临计算资源消耗大、模型泛化能力不足等问题。这些挑战不仅影响了数据集的广泛应用,也为后续研究提供了重要的改进方向。
常用场景
经典使用场景
CCKS2019_Comp数据集在知识图谱问答系统中扮演着核心角色,特别是在查询图生成方法的研究中。该数据集通过提供一系列复杂的中文句子,使得研究者能够深入探索如何从自然语言问题中自动构建查询图,进而实现对知识图谱的高效查询。这一过程不仅涉及自然语言处理技术,还包括知识表示和推理等多个领域,为知识图谱问答系统的性能提升提供了重要支持。
解决学术问题
CCKS2019_Comp数据集解决了知识图谱问答系统中查询图生成的难题,特别是在处理复杂中文句子时的准确性和效率问题。通过该数据集,研究者能够开发和验证新的算法,以提高查询图生成的准确率和召回率,从而提升整个问答系统的性能。此外,该数据集还为研究多语言知识图谱问答系统提供了宝贵的中文语料,推动了跨语言知识图谱问答技术的发展。
实际应用
在实际应用中,CCKS2019_Comp数据集被广泛应用于智能客服、教育辅导和信息检索等领域。通过利用该数据集训练出的模型,智能客服系统能够更准确地理解用户的问题,并提供精确的答案。在教育辅导领域,该数据集帮助开发出能够自动回答学生问题的智能辅导系统,极大地提高了教学效率。此外,信息检索系统通过该数据集提升了查询的准确性和响应速度,为用户提供了更好的搜索体验。
数据集最近研究
最新研究方向
近年来,随着知识图谱问答系统的广泛应用,查询图生成方法的研究逐渐成为该领域的热点。CCKS2019_Comp数据集作为中文知识图谱问答的重要资源,为研究者提供了丰富的复杂句实例,推动了查询图生成技术的创新。当前的研究方向主要集中在提升查询图生成的准确性和效率,尤其是在处理多关系、多实体等复杂查询场景时,如何通过深度学习模型优化查询图的生成与排序过程。此外,结合预训练语言模型和知识图谱嵌入技术,进一步提升问答系统的性能,也是当前研究的重点。这些进展不仅推动了知识图谱问答技术的发展,也为自然语言处理领域的其他任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



