BioKGBench

Name: BioKGBench
Creator: 西湖大学
Published: 2024-06-29 23:23:28
License: 暂无描述

arXiv2024-06-29 更新2024-07-04 收录

下载链接：

https://github.com/westlake-autolab/BioKGBench

下载链接

链接失效反馈

官方服务：

资源简介：

BioKGBench数据集由西湖大学创建，旨在评估生物医学领域AI代理的知识图谱检查能力。该数据集包含225条高质量注释数据，涉及知识图谱问题回答和科学声明验证两个子任务。数据集的创建过程结合了结构化知识图谱和非结构化文献数据，旨在解决现有知识图谱中事实错误的问题，并推动科学发现。

BioKGBench is a dataset developed by Westlake University, which is designed to assess the knowledge graph inspection capabilities of AI agents in the biomedical domain. It contains 225 high-quality annotated data samples, covering two subtasks: knowledge graph question answering and scientific statement verification. The dataset is built by integrating structured knowledge graphs and unstructured scholarly literature data, with the objectives of addressing factual errors in existing knowledge graphs and advancing scientific discovery.

提供机构：

西湖大学

创建时间：

2024-06-29

搜集汇总

数据集介绍

构建方式

BioKGBench数据集的构建方式主要分为两个子任务：知识图谱问答（KGQA）和科学声明验证（SCV）。KGQA任务旨在评估AI代理与结构化知识图谱交互的能力，而SCV任务则旨在评估AI代理对来自同行评审研究论文的非结构化文本的理解能力。为了更好地评估AI代理在生物医学科学领域的性能，BioKGBench还引入了一个综合任务，称为知识图谱检查（KGCheck），该任务结合了KGQA和基于检索增强生成（RAG）的域检索来识别现有大规模知识图谱数据库中的事实性错误。BioKGBench数据集包含了超过两千个数据用于两个原子任务，以及225个高质量标注数据用于代理任务。

使用方法

使用BioKGBench数据集的方法主要包括两个方面：评估和改进AI代理的性能。首先，研究人员可以使用该数据集来评估现有AI代理在KGQA、SCV和KGCheck任务上的性能。其次，研究人员可以利用该数据集来改进AI代理的设计和实现，以提高它们在处理和理解生物医学知识方面的能力。此外，BioKGBench数据集还提供了一个简单的基线代理BKGAgent，研究人员可以使用该代理作为参考来设计和实现自己的AI代理。

背景与挑战

背景概述

随着人工智能在生物医学科学领域的应用日益增多，特别是构建由大型语言模型（LLMs）驱动的AI科学家助手，如何评估这些系统的性能成为了一个重要的研究问题。BioKGBench数据集的创建旨在解决这个问题。该数据集由来自西湖大学、浙江大学和三星人工智能研究中心的研究人员于2024年6月发布，旨在提供一个基准，用于评估AI科学家助手在生物医学领域的性能。该数据集的核心研究问题是评估AI科学家助手理解文献和知识图谱的能力，以避免LLMs固有的幻觉问题。BioKGBench通过将“理解文献”分解为两个基本能力——理解无结构文本和与结构化知识图谱进行交互——来评估AI科学家助手的能力。此外，该数据集还包含一个名为KGCheck的新任务，该任务使用KGQA和基于检索的增强生成（RAG）来识别现有大规模知识图谱数据库中的事实错误。BioKGBench的发布对相关领域产生了重要影响，为评估AI科学家助手在生物医学领域的性能提供了一个新的基准。

当前挑战

BioKGBench数据集面临的挑战主要包括两个方面。首先，在领域问题方面，该数据集旨在解决如何精确评估生物医学领域的AI科学家助手的问题。其次，在构建过程中，研究人员遇到了如何将“理解文献”分解为可评估的基本能力，以及如何构建一个能够模拟人类科学研究方法的任务。此外，现有的AI科学家助手在BioKGBench上的表现不佳，这表明该数据集具有一定的难度，需要进一步的研究和改进。为了应对这些挑战，研究人员提出了一个简单而有效的基准模型BKGAgent，并在流行的知识图谱上发现了超过90个事实错误，为AI科学家助手提供了发现和改进的机会。

常用场景

经典使用场景

BioKGBench数据集被设计用于评估和训练AI科学家在生物医学科学领域的知识图谱校验能力。它通过两个基本能力来评估AI科学家：知识图谱问答（KGQA）和科学主张验证（SCV）。KGQA旨在通过结构化知识图谱来应对大语言模型（LLM）的幻觉问题，而SCV则是基于检索增强生成（RAG）方式，通过从同行评审的研究论文中检索文本来进行科学主张的验证。这两个基本能力的结合构成了一个名为KGCheck的新型代理任务，用于识别现有大规模知识图谱数据库中的事实性错误。

解决学术问题

BioKGBench数据集解决了在评估生物医学AI代理时缺乏系统评估体系的问题。传统的评估方法主要依赖于直接对LLM进行问答或采用生物医学实验方式，而这两种方法都存在着幻觉问题。BioKGBench通过引入KGCheck任务，不仅评估了AI代理对结构化数据（如知识图谱）的处理和理解能力，还评估了其对非结构化数据（如文献）的处理和理解能力。此外，BioKGBench还发现，现有的AI代理在处理大规模数据时存在幻觉问题，这为未来的研究和改进提供了重要的线索。

实际应用

BioKGBench数据集在实际应用中，可以帮助研究人员更新和维护他们的知识库，从而推动科学发现。例如，在临床知识图谱（CKG）中，BioKGBench的BKGAgent成功识别了一些冲突或缺失的配对，这为研究人员提供了一个工具来更新他们的知识库，并在学术和商业市场都具有巨大的潜力。

数据集最近研究