BiomixQA

Hugging Face2024-09-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/kg-rag/BiomixQA

下载链接

链接失效反馈

资源简介：

BiomixQA数据集是一个专门针对生物医学领域的问题回答数据集，包含两种类型的问题：多项选择题和真/假题。该数据集被用于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的表现。数据集的多样性体现在问题的类型和覆盖的生物医学概念上，使其特别适合评估KG-RAG框架的性能。此外，该数据集支持生物医学自然语言处理、知识图谱推理和问答系统的研究和开发。数据集的来源包括多个生物医学知识图谱和数据库，如SPOKE、DisGeNET、MONDO、SemMedDB、Monarch Initiative和ROBOKOP。

The BiomixQA dataset is a question answering dataset specifically tailored for the biomedical field, covering two types of questions: multiple-choice questions and true/false questions. This dataset is used to validate the performance of knowledge graph-based retrieval-augmented generation (KG-RAG) frameworks across different large language models (LLMs). The diversity of the dataset, in terms of question types and the biomedical concepts it covers, makes it particularly suitable for evaluating the performance of KG-RAG frameworks. Furthermore, this dataset supports research and development in biomedical natural language processing, knowledge graph reasoning, and question answering systems. The dataset is sourced from multiple biomedical knowledge graphs and databases, such as SPOKE, DisGeNET, MONDO, SemMedDB, Monarch Initiative, and ROBOKOP.

创建时间：

2024-09-04

原始信息汇总

BiomixQA 数据集

概述

BiomixQA 是一个精心策划的生物医学问答数据集，包含两个不同的组成部分：

多项选择题（MCQ）
判断题（True/False）

该数据集已被用于验证基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）中的表现。数据集中多样化的题目格式，涵盖多项选择和判断题，以及其对各种生物医学概念的覆盖，使其特别适合评估 KG-RAG 框架的性能。

因此，该数据集旨在支持生物医学自然语言处理、知识图谱推理和问答系统的研究和开发。

数据集描述

存储库: https://github.com/BaranziniLab/KG_RAG
论文: Biomedical knowledge graph-optimized prompt generation for large language models
联系人: Karthik Soman

数据集组成部分

1. 多项选择题（MCQ）

文件: mcq_biomix.csv
大小: 306 道题
格式: 每道题有五个选项，只有一个正确答案

2. 判断题（True/False）

文件: true_false_biomix.csv
大小: 311 道题
格式: 二元（True/False）题目

潜在用途

评估生物医学问答系统
测试生物医学领域的自然语言处理模型
评估各种检索增强生成（RAG）框架的检索能力
支持生物医学本体和知识图谱的研究

源数据

SPOKE: 一个大规模的生物医学知识图谱，包含约 4000 万个生物医学概念和约 1.4 亿个生物学上有意义的关系（Morris et al. 2023）。
DisGeNET: 整合了来自精选数据库、GWAS 目录、动物模型和科学文献中关于基因和遗传变异与人类疾病相关的数据（Piñero et al. 2016）。
MONDO: 提供关于疾病实体在开放生物医学本体（OBO）格式中的本体分类信息（Vasilevsky et al. 2022）。
SemMedDB: 包含从 PubMed 引文中提取的语义预测（Kilicoglu et al. 2012）。
Monarch Initiative: 一个疾病-基因关联数据的平台（Mungall et al. 2017）。
ROBOKOP: 一个基于知识图谱的生物医学数据集成和分析系统（Bizon et al. 2019）。

引用

如果您在研究中使用此数据集，请引用以下论文：

@article{soman2023biomedical, title={Biomedical knowledge graph-enhanced prompt generation for large language models}, author={Soman, Karthik and Rose, Peter W and Morris, John H and Akbas, Rabia E and Smith, Brett and Peetoom, Braian and Villouta-Reyes, Catalina and Cerono, Gabriel and Shi, Yongmei and Rizk-Jackson, Angela and others}, journal={arXiv preprint arXiv:2311.17330}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

BiomixQA数据集的构建基于多个权威的生物医学知识图谱，包括SPOKE、DisGeNET、MONDO、SemMedDB、Monarch Initiative和ROBOKOP。这些知识图谱整合了数百万个生物医学概念及其关系，确保了数据集的广泛覆盖和高质量。数据集包含两种问题类型：多选题（MCQ）和判断题（True/False），分别存储在`mcq_biomix.csv`和`true_false_biomix.csv`文件中。每个多选题包含五个选项和一个正确答案，而判断题则为二元选择。

特点

BiomixQA数据集的特点在于其多样性和专业性。数据集涵盖了广泛的生物医学概念，问题形式包括多选题和判断题，能够有效评估模型在不同任务中的表现。此外，数据集规模适中，包含306个多选题和311个判断题，适合用于验证知识图谱增强生成框架（KG-RAG）在大型语言模型（LLMs）中的应用。数据集的设计特别适用于生物医学领域的自然语言处理研究，尤其是知识图谱推理和问答系统的开发。

使用方法

BiomixQA数据集的主要用途是评估生物医学问答系统的性能，特别是在知识图谱增强生成框架（KG-RAG）中的应用。研究人员可以使用该数据集测试不同大型语言模型（如Llama-2-13b、GPT-3.5-Turbo和GPT-4）在生物医学领域的表现。数据集的多选题和判断题形式为模型提供了多样化的挑战，能够全面评估模型的理解和推理能力。此外，数据集还可用于支持生物医学本体和知识图谱的研究，推动该领域的进一步发展。

背景与挑战

背景概述

BiomixQA数据集是一个专门为生物医学领域设计的问答数据集，由Karthik Soman等研究人员于2024年创建，旨在支持生物医学自然语言处理、知识图谱推理和问答系统的研究。该数据集包含多项选择题和判断题两种形式，涵盖了广泛的生物医学概念，特别适用于评估基于知识图谱的检索增强生成（KG-RAG）框架在不同大型语言模型（LLMs）上的表现。数据集的核心研究问题在于如何通过知识图谱优化提示生成，从而提升LLMs在生物医学问答任务中的准确性和效率。BiomixQA的发布为生物医学领域的研究人员提供了一个重要的基准工具，推动了该领域的技术进步。

当前挑战

BiomixQA数据集在构建和应用过程中面临多重挑战。首先，生物医学领域的复杂性和专业性要求数据集必须涵盖广泛且准确的知识点，这对数据收集和标注提出了极高的要求。其次，多项选择题和判断题的设计需要确保问题的多样性和难度分布，以全面评估模型的性能。此外，如何将知识图谱与LLMs有效结合，以提升问答系统的检索和生成能力，也是一个技术难点。在模型评估方面，尽管KG-RAG框架显著提升了LLMs的表现，但在多项选择题上，不同模型之间的性能差异仍需进一步研究和优化。这些挑战不仅反映了数据集构建的复杂性，也为未来的研究提供了重要方向。

常用场景

经典使用场景

BiomixQA数据集在生物医学领域的自然语言处理研究中具有重要应用，特别是在评估基于知识图谱的检索增强生成（KG-RAG）框架时。该数据集通过包含多选题和判断题两种形式，能够全面测试大型语言模型（LLMs）在生物医学知识推理和问答系统中的表现。其多样化的题目设计使得研究人员能够深入分析模型在处理复杂生物医学概念时的能力。

衍生相关工作

BiomixQA数据集催生了一系列相关研究工作，特别是在生物医学知识图谱和问答系统领域。基于该数据集的研究成果包括对大型语言模型在生物医学问答任务中的性能优化，以及知识图谱增强生成框架的改进。此外，该数据集还促进了生物医学知识图谱的构建和扩展，推动了生物医学信息处理技术的创新和应用。

数据集最近研究