PubHealthBench

Name: PubHealthBench
Creator: 英国卫生安全局
Published: 2025-05-09 21:42:59
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/Joshua-Harris/PubHealthBench

下载链接

链接失效反馈

官方服务：

资源简介：

PubHealthBench是一个用于评估大型语言模型（LLM）在公共健康领域知识的新基准，包含了超过8000个针对公共健康查询的多项选择题和自由回答问题。该数据集由英国卫生安全局从超过1000份公开可用的英国政府网站（gov.uk）上的PDF和HTML文档中收集、提取并格式化为Markdown格式。数据集涵盖了10个公共健康主题领域和352个指导领域，共计687份包含英国政府公共健康信息的文档。该数据集旨在帮助研究人员和开发人员评估和改进LLM在公共健康领域的知识水平，并为公共健康咨询提供更准确的信息来源。

PubHealthBench is a novel benchmark for evaluating large language models (LLMs) on public health domain knowledge, comprising over 8,000 multiple-choice and free-response questions focused on public health queries. This dataset was collected, extracted, and formatted into Markdown by the UK Health Security Agency from more than 1,000 publicly accessible PDF and HTML documents sourced from the UK government website (gov.uk). It encompasses 10 public health thematic domains and 352 guidance areas, with a total of 687 documents containing UK government public health information. This benchmark is designed to help researchers and developers evaluate and improve the public health domain knowledge proficiency of LLMs, while providing a more accurate information resource for public health consultations.

提供机构：

英国卫生安全局

创建时间：

2025-05-09

原始信息汇总

PubHealthBench 数据集概述

基本信息

名称: PubHealthBench
维护者: UK Health Security Agency
语言: 英语
许可证: CC-BY-4.0（部分内容使用Open Government Licence v3.0）
大小: 1K<n<10K
任务类别: 问答
标签: 医疗

数据集描述

PubHealthBench 是一个用于评估大型语言模型（LLM）对当前英国政府公共卫生指南知识的基准数据集。包含超过8000个问题，涵盖10个公共卫生主题领域，源自687份英国政府网站（gov.uk）的文档。

重要注意事项

不应用作英国政府公共卫生信息的来源。
部分信息可能已过时。
文本提取可能存在错误或缺失。
问题和答案选项由大型语言模型生成。
部分问题或答案可能存在错误。

数据集结构

数据分割

Test: PubHealthBench-Full（7,929个问题）
Reviewed: PubHealthBench-Reviewed（760个手动审核的问题）
Validation: 161个问题（用于少量样本提示等）

列信息

question_id: 唯一问题ID
question: 问题文本
options: MCQA答案选项列表
bench_options_list_formatted: 带标签前缀的格式化选项列表
answer_index: 正确答案在options中的索引
answer: 正确答案标签（A-G）
options_formatted: 格式化选项的拼接字符串
category: 相关指南主题领域
intended_audience: 源指南文档的目标受众
source_document_title: 源文档标题
source_chunk_text: 用于生成问题的文档片段
review_annotation: 人工标注的MCQA问题注释（Valid, Invalid, NA）
retrieved_context_for_judge: 提供给LLM法官的上下文文本

使用场景

直接用途

MCQA: 包含1个正确答案和6个干扰项的问题
FreeForm: 使用非结构化响应的问题，带有基于源文本的LLM法官

超出范围用途

不应用作英国政府公共卫生信息来源

引用信息

bibtex @misc{harris2025healthyllmsbenchmarkingllm, title={Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information}, author={Joshua Harris and Fan Grayson and Felix Feldman and Timothy Laurence and Toby Nonnenmacher and Oliver Higgins and Leo Loman and Selina Patel and Thomas Finnie and Samuel Collins and Michael Borowitz}, year={2025}, eprint={2505.06046}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.06046}, }

搜集汇总

数据集介绍

构建方式

PubHealthBench数据集通过自动化流程构建，首先从英国政府网站（gov.uk）收集并提取了超过1000份UKHSA的PDF和HTML格式的公共卫生指南文档。这些文档经过预处理和分块处理，生成20,488个文本块。随后，利用Llama-3.3-70bn-Instruct模型从每个文本块中生成两个多项选择题（MCQA），每个问题包含一个正确答案和六个干扰项。通过自动化的错误检测和验证流程，最终筛选出8,090个高质量的MCQA问题，涵盖10个公共卫生主题领域和352个指南领域。

特点

PubHealthBench数据集的特点在于其全面性和专业性。数据集覆盖了英国政府发布的各类公共卫生指南，包括临床、专业和公众指导，确保了内容的广泛性和权威性。此外，数据集通过自动化和人工审核相结合的方式，保证了问题的准确性和多样性。数据集还提供了自由形式回答的基准测试（PubHealthBench-FreeForm），以评估模型在真实场景中的表现。数据集的另一个显著特点是其动态更新能力，能够适应公共卫生指南的频繁修订。

使用方法

PubHealthBench数据集的使用方法包括多项选择题回答（MCQA）和自由形式回答（FreeForm）两种模式。在MCQA模式下，模型需要从给定的选项中选择正确答案；在FreeForm模式下，模型需生成与指南内容一致的开放式回答。数据集还支持基于源文本的检索和验证，用户可以通过链接问题到原始文档来验证回答的准确性。此外，数据集提供了人工审核的子集（PubHealthBench-Reviewed），用于质量保证和性能基准测试。用户可以通过Hugging Face平台访问数据集和基准测试工具。

背景与挑战

背景概述

PubHealthBench是由英国卫生安全局（UKHSA）于2025年推出的一个创新性基准测试数据集，旨在评估大型语言模型（LLMs）对英国政府公共卫生指导知识的掌握程度。该数据集包含超过8000个多项选择题（MCQA）和自由形式回答题目，覆盖了10个公共卫生主题领域和352个指导领域，源自687份英国政府公共卫生文档。PubHealthBench的创建标志着在公共卫生领域对LLM知识进行系统评估的重要一步，特别是在信息准确性和时效性对公众健康具有重大影响的背景下。

当前挑战

PubHealthBench面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决LLMs在公共卫生领域知识的不准确或过时问题，特别是在自由形式回答中，模型可能产生与源文本不一致的幻觉信息。构建过程中的挑战包括自动化生成高质量MCQA问题的复杂性，确保问题与源文本的一致性，以及处理公共卫生指导的频繁更新和多地理差异。此外，评估自由形式回答的准确性也是一个显著挑战，需要开发新的评估方法如基于LLM的评判系统。

常用场景

经典使用场景

PubHealthBench作为评估大型语言模型（LLM）对英国政府公共卫生指南知识掌握程度的基准，其经典使用场景聚焦于多选问答（MCQA）和自由形式回答测试。通过自动化流程生成的8000余道题目，该数据集系统检验了模型在临床、公众及专业健康指导等10个公共卫生主题领域的知识覆盖度与准确性。尤其在模拟真实咨询场景中，研究人员利用其自由形式回答模块评估了LLM在无选项提示下的信息召回能力与幻觉风险，为模型在医疗健康对话系统中的可靠性提供了关键验证。

解决学术问题

该数据集有效解决了LLM领域三大核心学术问题：一是量化评估模型对动态更新的政府公共卫生知识的掌握时效性，31%的题目基于2024年更新的指南文档；二是揭示了模型知识表达形式的性能差异，顶级私有模型在MCQA中准确率超90%，而自由形式回答则普遍下降60个百分点；三是首次建立了LLM与人类基线（88%准确率）的横向对比框架，证明最新模型已超越非专业人士的搜索引擎检索能力，为AI辅助公共卫生决策提供了实证依据。

衍生相关工作

该数据集催生了多项重要研究：Shashidhar等人基于其自动化流程开发了YourBench框架，实现跨领域评估集生成；Wang团队受启发创建了MMLU-Pro的增强版基准。在公共卫生领域，Davies团队扩展了DFPH考试评估体系，而Harris后续工作则聚焦指南文档的信息抽取任务。数据集提供的687份标记化政府文档更成为检索增强生成（RAG）系统的标准语料库，推动了知识溯源技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集