Biopharmaceuticals Retrieval-Augmented Generation Evaluation (BRAGE)
收藏arXiv2025-04-15 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.12342v1
下载链接
链接失效反馈官方服务:
资源简介:
BRAGE是一个专为评估大规模语言模型在生物制药领域的查询与参考理解能力(QRUC)而设计的多语言基准数据集。该数据集包含了开放式的生物制药领域查询,旨在解决传统封闭式查询基准存在的问题,如预定义答案无法评估QRUC,以及数据快速演变导致一些查询只能通过LLM的内部知识正确回答。BRAGE由400个生物制药查询和相应的相关与无关参考组成,涵盖了基本生物学、药物开发与设计、临床转化与应用等多个子领域,以评估LLM在利用增补参考回答查询时的性能。
BRAGE is a multilingual benchmark dataset specifically designed for evaluating the Query and Reference Understanding Capability (QRUC) of large language models (LLMs) in the biopharmaceutical domain. This dataset consists of open-ended biopharmaceutical queries, aiming to address the limitations of traditional closed-ended query benchmarks, such as the inability of pre-defined answers to assess QRUC, and the problem that some queries can only be correctly answered using the internal knowledge of LLMs due to the rapid evolution of related data. BRAGE includes 400 biopharmaceutical queries paired with corresponding relevant and irrelevant references, covering multiple subfields including basic biology, drug development and design, clinical translation and applications, to evaluate the performance of LLMs in answering queries by leveraging supplementary references.
提供机构:
PatSnap Co., LTD.
创建时间:
2025-04-15
搜集汇总
数据集介绍

构建方式
在生物医药领域,检索增强生成(RAG)技术的应用日益受到关注,但缺乏专门评估大语言模型(LLM)在该领域表现的标准。BRAGE数据集的构建采用了多语言、开放式的查询设计,涵盖了英语、法语、德语和中文四种语言。数据收集过程包括从PubMed和Google搜索结果中检索相关文献,并由生物医药专家对检索结果进行分类,确保数据的高质量和专业性。此外,数据集还引入了噪声参考内容,以评估模型在真实场景中的鲁棒性。
特点
BRAGE数据集作为首个专注于生物医药领域的检索增强生成评估基准,具有显著的多语言和开放式查询特性。数据集包含400个生物医药查询,2470个相关参考和1856个无关参考,覆盖了基础生物学、药物开发与设计、临床转化与应用、伦理与法规、公共卫生与传染病五大类别。其独特之处在于采用基于引用的分类方法,直接量化模型对查询和参考关系的理解能力,而非依赖预定义的答案。
使用方法
使用BRAGE数据集时,研究者可通过指令提示引导LLM生成带有引用编号的响应,将响应评估转化为查询-参考对的分类任务。评估指标采用精确率、召回率和F1分数,衡量模型是否引用了相关参考。这种方法不仅降低了人工标注成本,还将400个基于内容的评估转化为4000多个基于查询-参考对分类的评估,显著提高了评估效率。数据集支持对主流LLM在生物医药领域检索增强能力的全面评测,并为模型优化提供了明确方向。
背景与挑战
背景概述
Biopharmaceuticals Retrieval-Augmented Generation Evaluation (BRAGE) 是首个专门针对生物制药领域设计的基准测试,旨在评估大型语言模型(LLMs)在检索增强生成(RAG)场景下的查询与参考文献理解能力(QRUC)。该数据集由PatSnap公司的Hanmeng Zhong、Linqing Chen、Weilei Wang和Wentao Wu等研究人员于2025年提出,并支持英语、法语、德语和中文四种语言。BRAGE的创建填补了生物制药领域缺乏专门评估LLMs在检索增强生成任务中表现的空缺,为相关研究提供了重要的评估工具。该数据集的推出对推动生物制药领域的信息检索与生成技术的发展具有重要意义。
当前挑战
BRAGE数据集面临的主要挑战包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,生物制药领域的专业性和复杂性要求模型具备高度的领域知识理解能力,同时需要准确区分相关与无关的参考文献以避免生成错误信息。构建过程中的挑战则包括多语言数据的收集与标注、高质量参考文献的筛选,以及如何设计开放性问题以全面评估模型的QRUC能力。此外,传统的问答评估指标(如准确率和精确匹配)在开放式的检索增强问答场景中表现不足,因此需要开发新的评估方法。
常用场景
经典使用场景
在生物制药领域,BRAGE数据集被广泛用于评估检索增强生成(RAG)模型在理解和利用生物制药特定知识方面的能力。通过提供多语言的开放性问题,该数据集能够全面测试模型在查询与参考内容之间建立准确关联的能力,从而为生物制药领域的研究和应用提供可靠的技术支持。
解决学术问题
BRAGE数据集解决了生物制药领域缺乏专门评估检索增强生成模型基准的问题。通过引入基于引用的分类方法,该数据集能够有效评估模型在理解查询与参考内容关系方面的能力,填补了传统问答指标在开放性问题场景下的不足,为相关研究提供了重要的评估工具。
衍生相关工作
BRAGE数据集的推出催生了一系列相关研究工作,特别是在生物制药领域的检索增强生成模型优化方面。例如,基于BRAGE的评估结果,研究人员开发了针对生物制药知识的新型检索算法和生成模型,进一步提升了模型在专业领域中的表现和应用效果。
以上内容由遇见数据集搜集并总结生成



