KG20C, KG20C-QA

Name: KG20C, KG20C-QA
Creator: 越南信息科技大学, 越南国立大学胡志明市分校, 日本国立情报学研究所, 日本综合研究大学院大学
Published: 2025-12-26 06:29:54
License: 暂无描述

arXiv2025-12-26 更新2025-12-30 收录

下载链接：

https://github.com/tranhungnghiep/KG20C/

下载链接

链接失效反馈

官方服务：

资源简介：

KG20C是由越南信息科技大学和日本国立情报学研究所联合构建的高质量学术知识图谱数据集，基于微软学术图谱（MAG）精选20个顶级计算机科学会议数据，包含5,047篇论文、8,680位作者等16,362个实体，通过严格的质量过滤和标准化分割形成48,213条训练三元组。该数据集采用与WN18RR相同的TSV格式，支持知识图谱嵌入、链接预测等任务。其衍生数据集KG20C-QA通过预定义模板将三元组转化为自然语言问答对，为学术领域的问答系统提供基准测试，特别适用于评估大型语言模型与知识图谱相结合的推理能力。

KG20C is a high-quality academic knowledge graph dataset jointly constructed by Vietnam University of Information Technology and the National Institute of Informatics (NII) of Japan. Based on Microsoft Academic Graph (MAG), it is curated from 20 top-tier computer science conferences, encompassing 16,362 entities including 5,047 papers and 8,680 authors. After strict quality filtering and standardized splitting, the dataset is formed into 48,213 training triples. It adopts the same TSV format as WN18RR, supporting tasks such as knowledge graph embedding and link prediction. Its derivative dataset KG20C-QA converts triples into natural language question-answer pairs via predefined templates, providing benchmark tests for academic question answering systems, and is particularly suitable for evaluating the reasoning capabilities of large language models (LLMs) combined with knowledge graphs.

提供机构：

越南信息科技大学, 越南国立大学胡志明市分校, 日本国立情报学研究所, 日本综合研究大学院大学

创建时间：

2025-12-26

搜集汇总

数据集介绍

构建方式

在学术知识图谱研究领域，构建高质量基准数据集对于推动算法评估与比较至关重要。KG20C的构建过程遵循严谨的三阶段流程：首先从微软学术图谱中提取数据，聚焦于1990年至2010年间二十个顶级计算机科学会议的出版物，并通过引用数量等指标进行质量过滤，形成初步的学术数据子集MAG20C；随后，基于该子集定义五种实体类型与五种内在关系类型，构建出结构清晰的多关系知识图谱；最后，采用随机划分方式生成训练、验证与测试集，并确保实体与关系在分割中的出现一致性，有效避免了数据泄露问题，从而形成了一个与WN18RR等经典基准在严谨性上可比的学术知识图谱。

使用方法

该数据集为学术知识推理研究提供了标准化的评估框架。研究者可直接使用其提供的TSV格式文件，其中包含明确的训练、验证和测试集划分，便于快速集成到现有的知识图谱嵌入框架中进行链接预测实验。对于问答任务，用户既可以处理实体-关系形式的查询，将其视为不完整三元组的补全问题；也可以处理自然语言形式的问题，评估文本模型直接理解并回答学术相关查询的能力。数据集附带的基线评估协议确保了实验的可复现性，为比较不同模型在学术链接预测与问答任务上的性能提供了可靠依据。

背景与挑战

背景概述

在知识图谱与自然语言处理交叉领域，面向学术数据的结构化表示与智能问答研究日益受到关注。KG20C与KG20C-QA数据集由越南胡志明市信息技术大学的Hung-Nghiep Tran与日本国立情报学研究所的Atsuhiro Takasu等人于2025年正式提出，旨在构建一个高质量、可复现的学术知识图谱基准。该数据集源自微软学术图谱，通过精选二十个顶级计算机科学会议、实施质量过滤与模式定义，构建了包含论文、作者、机构、会议及领域五类实体与五种内在关系的知识图谱。其核心研究问题聚焦于为学术元数据提供标准化的链接预测与问答评估资源，填补了现有百科式基准与大规模嘈杂学术图之间的空白，对推动学术知识推理、嵌入学习与大语言模型评估具有重要影响力。

当前挑战

KG20C与KG20C-QA数据集致力于解决学术知识图谱领域的链接预测与问答任务，其面临的核心挑战体现在两个方面。在领域问题层面，学术元数据具有复杂的多关系结构与丰富的语义信息，如何准确建模作者、论文、会议等实体间的异构关系，并支持从简单单跳问答向复杂多跳推理的扩展，构成了持续的算法挑战。在构建过程中，研究团队需应对原始数据噪声大、规模庞大且缺乏标准分割的问题，通过严格的会议选择、引用量过滤与数据清洗来确保质量，同时设计避免测试泄漏的标准化训练、验证与测试划分，以维持基准的严谨性与可比较性。

常用场景

经典使用场景

在学术知识图谱研究领域，KG20C与KG20C-QA数据集常被用于评估知识图谱表示学习与问答系统的性能。该数据集源自微软学术图谱，经过精心筛选与清洗，覆盖了计算机科学领域二十个顶级会议，构建了包含论文、作者、机构、会议及主题等实体与关系的结构化知识图谱。研究者通常利用该数据集进行链接预测任务的基准测试，通过训练集学习实体与关系的嵌入表示，并在验证集与测试集上评估模型预测缺失三元组的能力，从而比较不同嵌入方法的优劣。

解决学术问题

KG20C与KG20C-QA数据集主要解决了学术知识图谱领域缺乏标准化、高质量基准数据集的问题。传统基准如WN18RR与FB15k-237虽广泛使用，但侧重于通用百科知识，未能反映学术元数据的独特结构与挑战。该数据集通过严格的实体筛选、关系定义及数据划分，避免了测试泄漏与冗余问题，为链接预测与问答任务提供了可复现的评估框架。其意义在于推动了学术知识推理研究的规范化，使得不同方法能在同一严谨基准上公平比较，促进了知识图谱嵌入、多跳推理及自然语言问答等方向的发展。

实际应用

在实际应用层面，KG20C与KG20C-QA数据集为学术信息检索与智能服务提供了基础支持。基于该数据集训练的模型可应用于学术推荐系统，例如根据作者研究领域推荐合作者或相关论文；也可用于构建智能问答助手，回答诸如“某作者在哪些机构工作”或“某会议发表了哪些论文”等自然语言查询。此外，数据集支撑的链接预测技术能辅助发现隐藏的学术关联，如潜在引用关系或学科交叉趋势，从而服务于科研决策、趋势分析及学术资源管理等领域。

数据集最近研究