BiomixQA
收藏BiomixQA 数据集概述
概述
BiomixQA 是一个经过精心策划的生物医学问答数据集,包含两个不同的组成部分:
- 多项选择题(MCQ)
- 真/假题
该数据集已被用于验证基于知识图谱的检索增强生成(KG-RAG)框架在不同大型语言模型(LLMs)中的表现。数据集中问题的多样性,涵盖多项选择和真/假格式,以及其对各种生物医学概念的覆盖,使其特别适合评估 KG-RAG 框架的性能。
因此,该数据集旨在支持生物医学自然语言处理、知识图谱推理和问答系统的研究与开发。
数据集描述
- Huggingface 仓库: https://huggingface.co/datasets/kg-rag/BiomixQA
- 论文: Biomedical knowledge graph-optimized prompt generation for large language models
- 联系人: Karthik Soman
数据集组成部分
1. 多项选择题(MCQ)
- 文件:
mcq_biomix.csv - 大小: 306 个问题
- 格式: 每个问题有五个选项,只有一个正确答案
2. 真/假题
- 文件:
true_false_biomix.csv - 大小: 311 个问题
- 格式: 二元(真/假)问题
使用 Hugging Face 访问数据
以下代码片段展示了如何在 Python 中加载数据:
(i) 多项选择题数据
python from datasets import load_dataset
mcq_data = load_dataset("kg-rag/BiomixQA", "mcq")
(ii) 真/假题数据
python from datasets import load_dataset
tf_data = load_dataset("kg-rag/BiomixQA", "true_false")
潜在用途
- 评估生物医学问答系统
- 测试生物医学领域的自然语言处理模型
- 评估各种检索增强生成(RAG)框架的检索能力
- 支持生物医学本体和知识图谱的研究
性能分析
我们对三个大型语言模型(LLMs)——Llama-2-13b、GPT-3.5-Turbo (0613) 和 GPT-4 在 BiomixQA 数据集上的性能进行了全面分析。我们比较了它们在使用标准提示方法(零样本)和我们的知识图谱检索增强生成(KG-RAG)框架下的表现。
性能总结
表1:LLMs 在 BiomixQA 数据集上的性能(准确率)使用提示方法(零样本)和 KG-RAG 方法(更多详情请参阅 这篇论文)
| 模型 | 真/假数据集 | 多项选择数据集 | ||
|---|---|---|---|---|
| 提示方法 | KG-RAG | 提示方法 | KG-RAG | |
| Llama-2-13b | 0.89 ± 0.02 | 0.94 ± 0.01 | 0.31 ± 0.03 | 0.53 ± 0.03 |
| GPT-3.5-Turbo (0613) | 0.87 ± 0.02 | 0.95 ± 0.01 | 0.63 ± 0.03 | 0.79 ± 0.02 |
| GPT-4 | 0.90 ± 0.02 | 0.95 ± 0.01 | 0.68 ± 0.03 | 0.74 ± 0.03 |
关键观察
- 一致的性能提升: 我们观察到在使用 KG-RAG 框架时,所有 LLM 模型在真/假和多项选择数据集上的性能都有一致的提升。
- Llama-2 的显著改进: KG-RAG 框架显著提升了 Llama-2-13b 的性能,特别是在更具挑战性的多项选择数据集上。我们观察到准确率从 0.31 ± 0.03 提高到 0.53 ± 0.03,增加了 71%。
- GPT-4 与 GPT-3.5-Turbo 在多项选择题上的表现: 有趣的是,我们观察到在使用 KG-RAG 框架时,GPT-4 模型(0.74 ± 0.03)的性能略低于 GPT-3.5-Turbo 模型(0.79 ± 0.02)。这种差异在提示方法中并未出现。
- 统计显著性: T检验,p值 < 0.0001,t统计量 = -47.7,N = 1000
- 真/假数据集的性能: 所有模型在真/假数据集上表现良好,KG-RAG 方法在所有模型中略微提高了结果。
数据来源
- SPOKE: 一个大规模的生物医学知识图谱,包含约4000万个生物医学概念和约1.4亿个生物学上有意义的关系(Morris et al. 2023)。
- DisGeNET: 整合了来自精选数据库、GWAS目录、动物模型和科学文献中关于基因和遗传变异与人类疾病关联的数据(Piñero et al. 2016)。
- MONDO: 提供关于疾病实体在开放生物医学本体(OBO)格式中的本体分类信息(Vasilevsky et al. 2022)。
- SemMedDB: 包含从PubMed引文中提取的语义预测(Kilicoglu et al. 2012)。
- Monarch Initiative: 一个疾病-基因关联数据平台(Mungall et al. 2017)。
- ROBOKOP: 一个基于知识图谱的生物医学数据集成和分析系统(Bizon et al. 2019)。
引用
如果您在研究中使用此数据集,请引用以下论文:
@article{soman2023biomedical, title={Biomedical knowledge graph-enhanced prompt generation for large language models}, author={Soman, Karthik and Rose, Peter W and Morris, John H and Akbas, Rabia E and Smith, Brett and Peetoom, Braian and Villouta-Reyes, Catalina and Cerono, Gabriel and Shi, Yongmei and Rizk-Jackson, Angela and others}, journal={arXiv preprint arXiv:2311.17330}, year={2023} }




