OAG-Bench
收藏arXiv2024-02-24 更新2024-06-21 收录
下载链接:
https://www.aminer.cn/data/
下载链接
链接失效反馈官方服务:
资源简介:
OAG-Bench是由清华大学计算机科学与技术系开发的综合性、多方面、精细的人工策划基准,基于开放学术图谱(OAG)。该数据集覆盖了10个任务、20个数据集、70多个基线和120多个实验结果,旨在促进学术图谱挖掘的算法评估和比较。数据集内容包括从数千到数百万不等的数据量,涵盖了学术图谱的完整生命周期,包括数据预处理代码、算法实现和标准化评估协议。OAG-Bench的应用领域广泛,包括论文推荐、专家发现和学术影响力预测等,旨在解决学术数据挖掘中的关键挑战。
OAG-Bench is a comprehensive, multi-faceted, and meticulously human-curated benchmark developed by the Department of Computer Science and Technology, Tsinghua University, based on the Open Academic Graph (OAG). This benchmark covers 10 tasks, 20 datasets, over 70 baseline models, and more than 120 experimental results, aiming to facilitate algorithm evaluation and comparison for academic graph mining. It encompasses datasets with scales ranging from thousands to millions, covering the entire lifecycle of academic graphs, along with data preprocessing codes, algorithm implementations, and standardized evaluation protocols. OAG-Bench has a wide range of application scenarios, including paper recommendation, expert discovery, academic impact prediction and more, aiming to address key challenges in academic data mining.
提供机构:
清华大学计算机科学与技术系
创建时间:
2024-02-24
搜集汇总
数据集介绍

构建方式
在学术图谱挖掘领域,构建高质量基准数据集面临多维度标注不足、任务类型单一等挑战。OAG-Bench基于开放学术图谱(OAG),通过系统化的人工标注策略构建了覆盖学术图谱全生命周期的基准数据集。该数据集构建过程分为四个阶段:学术实体构建阶段通过实体对齐和作者消歧任务整合多源学术数据;学术图谱补全阶段通过学者画像和实体标注任务丰富图谱的语义信息;学术知识获取阶段基于真实学术系统收集用户行为数据构建推荐与问答数据集;学术溯源与预测阶段通过专家标注构建论文溯源和学术影响力预测数据集。整个构建过程融合了跨源校验、专家标注、动态采集等多种方法,确保了数据集的多样性和可靠性。
特点
OAG-Bench作为综合性学术图谱挖掘基准,其核心特征体现在多维度的任务覆盖与精细化的数据标注。数据集涵盖学术图谱构建、补全、知识获取、溯源预测四大模块共10项任务,突破了传统基准在任务类型和领域范围的局限性。数据标注具有多粒度特性,既包含百万规模的作者消歧标注,也涵盖专家精细标注的论文溯源关系。数据集来源多样,整合了AMiner、DBLP、Frontiers等多个真实学术系统的行为数据与元数据,确保了与现实场景的一致性。此外,该基准提供了超过70种基线方法实现和标准化评估协议,为学术图谱挖掘研究提供了可复现的实验基础。
使用方法
使用OAG-Bench进行学术图谱挖掘研究时,研究者可通过其提供的标准化流程快速开展实验。数据集已提供完整的数据预处理代码,支持研究者直接加载经过清洗和标注的学术图谱数据。对于每项任务,基准均配备了至少三种基线方法的实现代码,涵盖传统机器学习、图神经网络和大语言模型等不同技术路线。评估阶段可采用内置的标准化指标计算体系,如作者消歧任务采用AUC和MAP指标,论文推荐任务采用Recall@20和NDCG@20指标。研究者还可通过OAG-Challenge平台提交算法结果参与持续更新的排行榜,促进学术图谱挖掘技术的迭代发展。
背景与挑战
背景概述
在科学文献急剧增长的背景下,全面、多方面的学术知识服务愈发依赖于对学术图谱的深度挖掘。尽管已有若干公开的学术图谱与基准数据集,但它们往往在细粒度标注、任务覆盖范围以及与真实学术图谱的关联性方面存在局限。为应对这一挑战,由清华大学与智谱AI等机构的研究团队于2024年共同提出了OAG-Bench。该基准基于大规模开放学术图谱(OAG),通过人工精心标注,构建了一个涵盖学术图谱构建与应用全生命周期的综合性评估体系。其核心研究问题在于如何系统性地评估和比较各类学术图谱挖掘算法,以推动该领域算法的发展与标准化,对学术数据挖掘、知识图谱构建及科学计量学等领域具有重要的基准参考价值。
当前挑战
OAG-Bench所针对的学术图谱挖掘领域面临多重挑战。在领域问题层面,其旨在解决的挑战具有高度复杂性,例如作者姓名消歧中存在的海量同名实体区分、论文溯源任务中需要深度理解学术思想传承脉络、以及学者画像构建需从长文本中精准提取多维属性等。这些任务要求模型不仅理解表层语义,还需具备深层次的学术逻辑推理能力。在数据集构建过程中,挑战同样显著:为确保标注质量,需设计新颖的标注策略,如通过跨数据源交叉验证来发现错误的论文-作者归属;针对需要专业知识的任务(如论文溯源),需组织领域专家进行持续、高质量的标注;此外,还需处理超大规模异构学术数据的整合、清洗与对齐,并设计覆盖传统方法、图神经网络及大语言模型等的多样化基线方法,以建立公平、全面的评估基准。
常用场景
经典使用场景
在学术图谱挖掘领域,OAG-Bench作为基于开放学术图谱(OAG)构建的综合性基准,其经典使用场景主要集中于评估和比较各类算法在复杂学术知识发现任务中的性能。该基准通过精心标注的大规模异构数据,为研究者提供了涵盖学术实体构建、图谱补全、知识获取与溯源预测等全生命周期的标准化测试环境。例如,在作者姓名消歧任务中,研究者可利用其提供的百万级人工标注数据,系统验证图神经网络与大语言模型在识别同名作者归属问题上的准确性与鲁棒性,从而推动消歧技术的迭代与创新。
解决学术问题
OAG-Bench有效解决了学术数据挖掘中长期存在的若干关键问题。针对现有公共学术图谱缺乏多维度细粒度标注的局限,该基准通过人工精标策略,为实体对齐、概念分类等任务提供了高质量的训练与评估数据。同时,它突破了传统学术基准局限于特定领域(如生物医学)或任务类型(如自然语言处理)的约束,首次将学术图谱构建与应用的全流程任务纳入统一框架,涵盖了从实体消歧到影响力预测的多样化场景。这为探索学术知识的结构化表征、动态演化模式以及跨领域知识融合等前沿课题奠定了坚实的数据基础。
衍生相关工作
围绕OAG-Bench,学术界已衍生出一系列经典研究工作,持续拓展学术图谱挖掘的边界。在作者姓名消歧方向,基于WhoIsWho数据集的竞赛催生了如ECNU_AIDA、AlexNE等融合语义与结构特征的先进消歧模型。在学术问答领域,OAG-QA数据集促进了ColBERT等稠密检索模型在专业知识检索中的性能优化。概念分类学补全任务则激发了TaxoExpan等位置增强图神经网络方法的发展,以应对快速演进的知识体系构建挑战。这些工作不仅验证了基准的有效性,也共同推动了图神经网络、预训练语言模型等前沿技术在学术数据分析中的深度融合与创新应用。
以上内容由遇见数据集搜集并总结生成



