BiomixQA

github2024-09-05 更新2024-09-07 收录

下载链接：

https://github.com/karthiksoman/biomixQA

下载链接

链接失效反馈

官方服务：

资源简介：

BiomixQA是一个经过精心策划的生物医学问答数据集，包含两个不同的组成部分：多项选择题（MCQ）和真/假题。该数据集已被用于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的表现。数据集中问题的多样性，涵盖多项选择和真/假格式，以及其对各种生物医学概念的覆盖，使其特别适合评估KG-RAG框架的性能。因此，该数据集旨在支持生物医学自然语言处理、知识图谱推理和问答系统的研究和开发。

BiomixQA is a well-curated biomedical question answering dataset containing two distinct components: multiple-choice questions (MCQs) and true/false questions. This dataset has been employed to validate the performance of knowledge graph-based retrieval-augmented generation (KG-RAG) frameworks across various large language models (LLMs). The diversity of questions within the dataset, which spans both multiple-choice and true/false formats, as well as its comprehensive coverage of diverse biomedical concepts, makes it particularly well-suited for evaluating the performance of KG-RAG frameworks. Consequently, this dataset is designed to support research and development in biomedical natural language processing, knowledge graph reasoning, and question answering systems.

创建时间：

2024-09-05

原始信息汇总

BiomixQA 数据集概述

概述

BiomixQA 是一个经过精心策划的生物医学问答数据集，包含两个不同的组成部分：

多项选择题（MCQ）
真/假题

该数据集已被用于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的表现。数据集中问题的多样性，涵盖多项选择和真/假格式，以及其对各种生物医学概念的覆盖，使其特别适合评估 KG-RAG 框架的性能。

因此，该数据集旨在支持生物医学自然语言处理、知识图谱推理和问答系统的研究与开发。

数据集描述

Huggingface 仓库: https://huggingface.co/datasets/kg-rag/BiomixQA
论文: Biomedical knowledge graph-optimized prompt generation for large language models
联系人: Karthik Soman

数据集组成部分

1. 多项选择题（MCQ）

文件: mcq_biomix.csv
大小: 306 个问题
格式: 每个问题有五个选项，只有一个正确答案

2. 真/假题

文件: true_false_biomix.csv
大小: 311 个问题
格式: 二元（真/假）问题

使用 Hugging Face 访问数据

以下代码片段展示了如何在 Python 中加载数据：

(i) 多项选择题数据

python from datasets import load_dataset

mcq_data = load_dataset("kg-rag/BiomixQA", "mcq")

(ii) 真/假题数据

python from datasets import load_dataset

tf_data = load_dataset("kg-rag/BiomixQA", "true_false")

潜在用途

评估生物医学问答系统
测试生物医学领域的自然语言处理模型
评估各种检索增强生成（RAG）框架的检索能力
支持生物医学本体和知识图谱的研究

性能分析

我们对三个大型语言模型（LLMs）——Llama-2-13b、GPT-3.5-Turbo (0613) 和 GPT-4 在 BiomixQA 数据集上的性能进行了全面分析。我们比较了它们在使用标准提示方法（零样本）和我们的知识图谱检索增强生成（KG-RAG）框架下的表现。

性能总结

表1：LLMs 在 BiomixQA 数据集上的性能（准确率）使用提示方法（零样本）和 KG-RAG 方法（更多详情请参阅这篇论文）

模型	真/假数据集		多项选择数据集
	提示方法	KG-RAG	提示方法	KG-RAG
Llama-2-13b	0.89 ± 0.02	0.94 ± 0.01	0.31 ± 0.03	0.53 ± 0.03
GPT-3.5-Turbo (0613)	0.87 ± 0.02	0.95 ± 0.01	0.63 ± 0.03	0.79 ± 0.02
GPT-4	0.90 ± 0.02	0.95 ± 0.01	0.68 ± 0.03	0.74 ± 0.03

关键观察

一致的性能提升: 我们观察到在使用 KG-RAG 框架时，所有 LLM 模型在真/假和多项选择数据集上的性能都有一致的提升。
Llama-2 的显著改进: KG-RAG 框架显著提升了 Llama-2-13b 的性能，特别是在更具挑战性的多项选择数据集上。我们观察到准确率从 0.31 ± 0.03 提高到 0.53 ± 0.03，增加了 71%。
GPT-4 与 GPT-3.5-Turbo 在多项选择题上的表现: 有趣的是，我们观察到在使用 KG-RAG 框架时，GPT-4 模型（0.74 ± 0.03）的性能略低于 GPT-3.5-Turbo 模型（0.79 ± 0.02）。这种差异在提示方法中并未出现。
- 统计显著性: T检验，p值 < 0.0001，t统计量 = -47.7，N = 1000
真/假数据集的性能: 所有模型在真/假数据集上表现良好，KG-RAG 方法在所有模型中略微提高了结果。

数据来源

SPOKE: 一个大规模的生物医学知识图谱，包含约4000万个生物医学概念和约1.4亿个生物学上有意义的关系（Morris et al. 2023）。
DisGeNET: 整合了来自精选数据库、GWAS目录、动物模型和科学文献中关于基因和遗传变异与人类疾病关联的数据（Piñero et al. 2016）。
MONDO: 提供关于疾病实体在开放生物医学本体（OBO）格式中的本体分类信息（Vasilevsky et al. 2022）。
SemMedDB: 包含从PubMed引文中提取的语义预测（Kilicoglu et al. 2012）。
Monarch Initiative: 一个疾病-基因关联数据平台（Mungall et al. 2017）。
ROBOKOP: 一个基于知识图谱的生物医学数据集成和分析系统（Bizon et al. 2019）。

引用

如果您在研究中使用此数据集，请引用以下论文：

@article{soman2023biomedical, title={Biomedical knowledge graph-enhanced prompt generation for large language models}, author={Soman, Karthik and Rose, Peter W and Morris, John H and Akbas, Rabia E and Smith, Brett and Peetoom, Braian and Villouta-Reyes, Catalina and Cerono, Gabriel and Shi, Yongmei and Rizk-Jackson, Angela and others}, journal={arXiv preprint arXiv:2311.17330}, year={2023} }

搜集汇总

数据集介绍

构建方式

在生物医学领域，BiomixQA数据集的构建旨在为自然语言处理和知识图谱推理提供一个全面的评估平台。该数据集由两部分组成：多选题（MCQ）和真假题（True/False Questions）。多选题部分包含306个问题，每个问题有五个选项，其中只有一个正确答案；真假题部分包含311个问题，采用二元（真/假）格式。这些问题涵盖了广泛的生物医学概念，确保了数据集的多样性和深度。通过整合来自SPOKE、DisGeNET、MONDO、SemMedDB、Monarch Initiative和ROBOKOP等多个生物医学知识图谱的数据，BiomixQA数据集为评估和提升生物医学问答系统提供了坚实的基础。

特点

BiomixQA数据集的显著特点在于其多样化的题型和广泛的知识覆盖。多选题和真假题的结合不仅增加了数据集的复杂性，还为评估模型的多方面能力提供了可能。此外，数据集的构建基于多个权威的生物医学知识图谱，确保了问题的准确性和相关性。这种多源数据的整合使得BiomixQA特别适合用于评估知识图谱增强的生成框架（KG-RAG）在大型语言模型（LLMs）中的表现。

使用方法

使用BiomixQA数据集进行研究时，可以通过Hugging Face平台轻松访问。对于多选题数据，可以使用以下Python代码加载：`from datasets import load_dataset; mcq_data = load_dataset("kg-rag/BiomixQA", "mcq")`；对于真假题数据，使用类似的代码：`tf_data = load_dataset("kg-rag/BiomixQA", "true_false")`。该数据集适用于评估生物医学问答系统、测试自然语言处理模型在生物医学领域的应用、评估各种RAG框架的检索能力，以及支持生物医学本体和知识图谱的研究。

背景与挑战

背景概述

BiomixQA数据集是一个精心策划的生物医学问答数据集，由多项选择题（MCQ）和真/假题两部分组成。该数据集的主要研究人员包括Karthik Soman等人，其核心研究问题在于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的应用效果。自2023年创建以来，BiomixQA数据集已成为生物医学自然语言处理、知识图谱推理以及问答系统研究的重要资源。其多样化的题型和广泛的生物医学概念覆盖，使其成为评估KG-RAG框架性能的理想选择，对推动相关领域的技术进步具有显著影响力。

当前挑战

BiomixQA数据集在构建和应用过程中面临多项挑战。首先，数据集的多样性要求模型具备处理不同题型的能力，特别是在多项选择题（MCQ）中，模型的准确性提升面临较大困难。其次，知识图谱的构建和整合来自多个生物医学知识库的数据，如SPOKE、DisGeNET等，确保数据的一致性和准确性是一项复杂任务。此外，评估不同大型语言模型在KG-RAG框架下的性能时，需考虑模型间的细微差异及其对结果的影响，如GPT-4与GPT-3.5-Turbo在MCQ数据集上的表现差异。这些挑战不仅影响数据集的实际应用效果，也对未来研究提出了更高的要求。

常用场景

经典使用场景

在生物医学领域，BiomixQA数据集的经典使用场景主要集中在评估和优化基于知识图谱的检索增强生成（KG-RAG）框架。该数据集通过包含多选题和真假题两种形式，全面覆盖了生物医学概念的多样性，从而为研究人员提供了一个理想的平台，用以测试和比较不同大型语言模型（LLMs）在处理复杂生物医学问题时的表现。

衍生相关工作

基于BiomixQA数据集，研究人员已经开展了一系列相关工作，包括但不限于优化知识图谱的构建和检索算法，以及开发新的提示生成技术。例如，一些研究团队利用该数据集验证了KG-RAG框架在不同LLMs上的表现，并提出了改进策略。此外，BiomixQA还激发了关于如何更有效地整合生物医学知识图谱与自然语言处理模型的深入探讨，推动了该领域的创新和发展。

数据集最近研究