CLC-QuAD

Name: CLC-QuAD
Creator: 浙江大学
Published: 2021-11-11 15:39:16
License: 暂无描述

arXiv2021-11-11 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2111.06086v1

下载链接

链接失效反馈

官方服务：

资源简介：

CLC-QuAD是首个基于Wikidata的大规模中文复杂语义解析数据集，由浙江大学等机构创建。该数据集包含超过28,000个问题及其对应的SPARQL查询，涵盖多种问题类型，如事实问题、双重意图问题、布尔问题和计数问题。数据集的构建过程涉及将英文问题翻译成中文，并通过人工验证确保翻译的准确性。CLC-QuAD旨在推动中文知识库问答系统的研究，解决现有数据集在问题类型和语言多样性方面的不足。

CLC-QuAD is the first large-scale Chinese complex semantic parsing dataset based on Wikidata, created by institutions including Zhejiang University. This dataset contains over 28,000 questions and their corresponding SPARQL queries, covering multiple question types such as factoid questions, dual-intent questions, boolean questions, and counting questions. The dataset construction process involves translating English questions into Chinese, with manual verification conducted to ensure translation accuracy. CLC-QuAD aims to promote research on Chinese knowledge base question answering systems, and address the shortcomings of existing datasets in terms of question types and linguistic diversity.

提供机构：

浙江大学

创建时间：

2021-11-11

搜集汇总

数据集介绍

构建方式

CLC-QuAD数据集源自对英文复杂知识库问答数据集LC-QuAD 2.0的系统性汉化与重构。研究团队组织20名计算机专业学生，在3位自然语言处理研究者的督导下，将LC-QuAD 2.0中每条英文问题及其三个释义版本逐一翻译为中文。为确保翻译质量，每条问题先由一名学生初译，再由另一名学生交叉校验与修正，最终由第三名学生审核原始与修正版本。同时，团队依托Wikidata中的中文描述信息，对原始SPARQL查询语句进行双重校验：一方面在Wikidata查询服务中检查语法错误并获取答案标签，另一方面人工比对问题与查询的语义匹配性，纠正错误，最终构建出包含28,409对中文问题与SPARQL查询的高质量数据集。

特点

CLC-QuAD作为首个基于Wikidata的大规模中文复杂知识库问答数据集，展现出显著的语义覆盖广度与问题类型多样性。其SPARQL查询涵盖SELECT、COUNT、ASK、DISTINCT、FILTER、YEAR等丰富组件，支持事实型、布尔型、双意图型、计数型及最大/最小值型等多类复杂问题。数据集包含20,577个实体与3,447种关系，词汇量达32,683，平均问题长度20.1个字符，远超市面多数同类资源。尤为突出的是，其中约35%为双意图问题，20%为布尔问题，这些在现有数据集中鲜有涉及，为中文语义解析带来了独特挑战。

使用方法

CLC-QuAD适用于基于语义解析的中文复杂知识库问答研究。研究者可采用文本到SPARQL的端到端模型，利用关系感知自注意力编码器捕获问题、实体与关系间的图结构信息，并通过多类型指针网络解码器生成包含实体、关系及SPARQL关键字的查询语句。数据集提供标准训练/验证/测试划分，支持以答案F1分数和查询精确匹配率为评价指标。模型可基于BERT或中文词嵌入初始化，结合Adam优化器进行训练。该数据集亦可用于跨语言知识库问答对比研究，以及不同问题类型（如布尔、双意图、计数）的细粒度性能分析。

背景与挑战

背景概述

复杂知识库问答（KBQA）是自然语言处理领域的重要研究方向，近年来取得了显著进展，然而现有数据集大多局限于英文，且仅涵盖少量问题类型和关系，严重制约了多语言、多类型复杂问题场景下的研究。为突破这一瓶颈，浙江大学、中国科学院深圳先进技术研究院及阿里巴巴集团的研究团队于2021年联合构建了CLC-QuAD数据集，这是首个大规模的中文复杂语义解析数据集，以Wikidata为背景知识库。该数据集通过翻译、校验和过滤LC-QuAD 2.0中的英文问题，覆盖了事实类、双重意图类、布尔类及计数类等多种问题类型，旨在推动中文KBQA研究向更真实、更复杂的应用场景迈进。CLC-QuAD的出现不仅填补了中文复杂KBQA数据集的空白，也为跨语言知识推理与语义解析提供了宝贵的基准资源。

当前挑战

CLC-QuAD数据集面临的核心挑战体现在两个层面。在领域问题层面，现有KBQA模型大多针对简单问题设计，难以有效处理布尔类、双重意图类等复杂问题类型，尤其是在中文语境下，语义表达灵活多变，对语义解析的鲁棒性提出了极高要求；同时，基于Wikidata的查询涉及大量实体与关系，模型需准确理解问题结构与知识图谱的映射关系，任务复杂度显著提升。在构建过程层面，数据集的创建需将英文问题人工翻译为中文，并由多名标注者交叉校验以保证质量，但不同语言间的语义对等性难以完美实现，且SPARQL查询的正确性验证需兼顾语法正确性与语义匹配度，工作量巨大；此外，中文词汇的切分与表征、问题类型的均衡分布等也为数据集的构建增添了技术难度。

常用场景

经典使用场景

在知识图谱问答领域，CLC-QuAD作为首个大规模中文复杂问题语义解析数据集，其核心应用场景聚焦于多类型复杂问题的自动回答。该数据集涵盖事实型、双重意图型、布尔型及计数型等多种问题形态，并以Wikidata为背景知识库，为研究者提供了丰富的训练与评估资源。通过将自然语言问题转化为SPARQL查询，CLC-QuAD助力模型在中文环境下实现从简单事实查询到复杂逻辑推理的跨越，尤其适用于需要处理多跳关系、条件约束及聚合运算的智能问答系统开发与评测。

衍生相关工作

CLC-QuAD的发布催生了一系列衍生研究工作，其中最具代表性的是基于关系感知自注意力与多类型指针网络的文本到SPARQL基线模型。该模型通过引入关系感知编码器捕获知识图谱结构信息，并设计独立的指针网络分别处理实体、关系与SPARQL关键词，显著提升了多类型问题的解析准确率。此外，研究者还在此基础上探索了基于BERT的预训练表示增强方法，以及针对计数型与限定型问题的专项优化策略，这些工作共同推动了中文复杂知识库问答领域的技术迭代与创新。

数据集最近研究