HealthBench-BR, PCDT-QA

github2026-05-05 更新2026-05-06 收录

下载链接：

https://github.com/hugoabonizio/clinical-protocols-br

下载链接

链接失效反馈

官方服务：

资源简介：

HealthBench-BR包含1,780个真/假临床断言（每个指南10个，平衡50/50），每个断言成对出现：一个陈述忠实于指南，第二个修改关键细节（剂量、给药途径、监测间隔等）。正确分类需要精确的事实回忆，而不是表面级别的启发式。PCDT-QA包含890个开放式问题（每个指南5个），参考答案基于指南文本。评估使用LLM-as-a-judge流程（GPT-4.1）产生二元正确/不正确判决，适应临床响应的开放性。

HealthBench-BR consists of 1,780 true/false clinical claims (10 per guideline, balanced 50/50). Each claim appears in pairs: one statement is faithful to the guideline, while the second modifies key details such as dosage, administration route, monitoring intervals, and other relevant factors. Correct classification requires precise factual recall rather than surface-level heuristics. PCDT-QA contains 890 open-ended questions (5 per guideline), with reference answers grounded in the guideline texts. Evaluation employs the LLM-as-a-judge workflow (GPT-4.1) to generate binary correct/incorrect judgments, tailored to the open-ended nature of clinical responses.

创建时间：

2026-04-21

原始信息汇总

数据集概述

Teaching LLMs Brazilian Healthcare 是一个专注于将大型语言模型（LLMs）适配到巴西统一医疗系统（SUS）临床知识的数据集与模型项目。该项目基于巴西卫生部发布的178份官方临床指南，通过持续预训练（CPT）和强化学习（GRPO）构建了领域适配流水线。

数据集构成

原始指南数据集：包含178份巴西卫生部官方临床指南（PCDTs、DDTs、使用协议、国家指南和护理路径），总计约540万 token。其中89份用于训练，89份用于测试。
合成语料库：约7000万 token，包含17,800个样本。每份指南被改写为三种互补格式（复述、维基百科风格文章、带推理的问答对），由GPT-4.1-mini、GPT-5-nano、GPT-OSS-20B和Qwen3-235B四个生成器模型生成。
训练数据：仅从训练集指南生成问答格式的合成数据，复述和维基百科风格数据来自所有指南。

基准测试

HealthBench-BR：包含1,780条真/假临床断言（每份指南10条，正负样本平衡）。每条断言成对出现，一条忠实于指南，另一条修改关键细节（剂量、给药途径、监测间隔等），评估模型的精确事实召回能力。
PCDT-QA：包含890个开放式问题（每份指南5个），附带基于指南文本的参考答案。使用GPT-4.1作为评判者进行二元正确/错误判定。

两个基准测试均按指南级别划分，训练和测试集各包含445或890个问题，与合成训练数据无重叠。

主要结果

在测试集上，经CPT和RL训练后的14B开源模型（Qwen2.5-14B-Instruct）表现如下：

HealthBench-BR：83.9% 准确率
PCDT-QA：85.4% 准确率

该模型在两个基准测试上均超越了GPT-4.1、GPT-5.2、Claude Sonnet 4.6、Gemini 3.1 Pro等专有前沿模型。

发布成果

所有资源整理在 HuggingFace 上的 Protocolos Clínicos BR 集合中。

数据集：

hugo/protocolos-clinicos-br — 178份原始指南及用于CPT的13种合成配置
hugo/healthbench-br — 真/假基准测试
hugo/pcdt-qa — 开放式问答基准测试

模型（基于Qwen2.5-14B-Instruct）：

protocolos-clinicos-br-rl-4gen-14b — CPT（4个生成器）+ GRPO LoRA（最佳模型，HB: 83.9, PCDT: 85.4）
protocolos-clinicos-br-rl-1gen-14b — CPT（1个生成器）+ GRPO LoRA（HB: 75.6, PCDT: 65.4）
protocolos-clinicos-br-cpt-4gen-14b — CPT（4个生成器），全量微调（HB: 71.1, PCDT: 86.3）
protocolos-clinicos-br-cpt-1gen-14b — CPT（1个生成器），全量微调（HB: 69.6, PCDT: 66.3）
protocolos-clinicos-br-cpt_lora-4gen-14b — CPT（4个生成器）通过LoRA（HB: 70.3, PCDT: 77.1）
protocolos-clinicos-br-cpt_lora-1gen-14b — CPT（1个生成器）通过LoRA（HB: 67.2, PCDT: 65.2）
protocolos-clinicos-br-cpt_replay-1gen-14b — CPT（1个生成器）+ FineWeb-EN回放（HB: 63.8, PCDT: 65.6）
protocolos-clinicos-br-base_rl-1gen-14b — 仅RL（无CPT），LoRA（HB: 64.2, PCDT: 29.4）

仓库结构

train/ — CPT、SFT和RL（GRPO）训练脚本
healthbench-br/ — 真/假评估（含和不含RAG）
pcdt-qa/ — 开放式问答评估（含和不含RAG）
rag_utils/ — 基于指南语料库的Oracle和RAG检索器（BM25、嵌入）
forgetting/ — 分布外基准测试（BLUEX、MMLU/ARC/HellaSwag、IFEval、HealthQA、DrBode、MedPT）

搜集汇总

数据集介绍

构建方式

在巴西统一医疗系统（SUS）的临床知识背景下，为了增强大语言模型对官方临床指南的遵循能力，研究者构建了HealthBench-BR与PCDT-QA两个基准数据集。其构建基于巴西卫生部发布的178份官方临床指南（约540万词元），通过三阶段领域自适应流程实现。首先，利用GPT-4.1-mini、GPT-5-nano、GPT-OSS-20B和Qwen3-235B四种生成式大语言模型，将每份指南重写为三种互补格式（复述、维基百科风格文章、带推理的问答对），合成约7000万词元的语料（共17800个样本）。随后，在合成语料上对Qwen2.5-14B-Instruct模型进行持续预训练（CPT），并通过基于群体相对策略优化（GRPO）的强化学习结合低秩适应（LoRA）技术，在HealthBench-BR训练集上优化模型，奖励正确判决且包含至少50词理由的输出以鼓励显式临床推理。178份指南按文档级别划分为89份训练与89份测试，问答格式数据仅从训练集指南生成以避免泄露。

特点

HealthBench-BR与PCDT-QA各自具有鲜明且互补的特点，能够精准评估模型对临床指南的细粒度知识召回能力。HealthBench-BR包含1780条真/假临床断言，每份指南对应10条且正反实例均衡分布，每条断言均成对出现：一句忠实于指南原文，另一句修改关键细节（如剂量、给药途径、监测间隔等），正确分类要求精确的事实回忆，而非表面启发式。PCDT-QA则包含890个开放式问题，每份指南对应5问，参考答案根植于指南文本，评估采用基于大语言模型作为评判者的流水线（GPT-4.1）产生二值正确/错误判决以适应临床回答的开放性。两个基准均按指南级别拆分（每份445或890个问题），与合成训练数据无重叠，确保了评估的独立性与挑战性。

使用方法

使用HealthBench-BR与PCDT-QA数据集的方法简便且机制完善，旨在促进对巴西医疗领域大语言模型的系统评估与改进。研究人员和开发者可通过HuggingFace平台访问数据集合集（Protocolos Clínicos BR Collection），直接下载原始指南、合成语料及两个基准数据集。针对HealthBench-BR，使用者可加载真/假断言对，对模型进行二分类评估并计算准确率，亦可结合检索增强生成（RAG）技术，利用BM25或嵌入检索器从指南语料库中获取证据以辅助推理。对于PCDT-QA，则采用开放式问答形式，借助GPT-4.1等评判模型对回答进行自动化打分，生成二值正确性判决。此外，仓库提供了完整的训练与评估脚本，支持持续预训练、监督微调、GRPO强化学习等实验，并包含针对遗忘现象的外域基准（如BLUEX、MMLU等），便于进行全面的领域自适应研究。

背景与挑战

背景概述

HealthBench-BR与PCDT-QA数据集由巴西研究人员Hugo Abonizio、Filipe Rocha Lopes、Roberto Lotufo及Rodrigo Nogueira于2025年构建，旨在解决大型语言模型（LLM）在巴西统一医疗系统（SUS）临床知识领域中的适配问题。通过整合巴西卫生部发布的178份官方临床指南，研究团队构建了涵盖约70M tokens的合成语料库，并采用持续预训练与基于群体相对策略优化（GRPO）的强化学习技术，显著提升了模型对指南细节的精准回忆能力。该数据集的发布填补了低资源语言环境下医疗领域评估基准的空白，其最终模型在测试集上以83.9%和85.4%的准确率超越了GPT-4.1、Claude Sonnet 4.6等前沿闭源模型，为医疗领域LLM的可靠部署树立了新标杆。

当前挑战

数据集面临的核心挑战在于解决临床知识精准回忆与推理的领域难题。具体而言，模型需区分指南中的细微差异（如剂量、给药途径、监测间隔等），并避免依赖表面启发式特征进行判断，这对事实性召回能力提出了极高要求。此外，构建过程中面临多重困难：首先，原始指南规模仅5.4M tokens，需通过四种不同生成器（如GPT-4.1-mini、Qwen3-235B）合成多样化语料（约70M tokens）以扩充训练数据，同时严格防止训练集与测试集间的信息泄露；其次，在持续预训练与强化学习微调中，需设计兼顾真实性与临床推理能力的奖励机制（如要求判别包含至少50词的理由）；最后，由于资源有限，开放域问答评估依赖LLM作为评判者（GPT-4.1），这引入了额外的噪声与控制变量问题。

常用场景

经典使用场景

在自然语言处理与医疗信息学交叉领域，HealthBench-BR与PCDT-QA两个基准数据集构成了评估大型语言模型对巴西统一医疗系统（SUS）官方临床指南掌握程度的独特标杆。HealthBench-BR包含1,780条基于178份指南构建的真假命题，每条指南衍生10道判断题，通过巧妙修改关键细节（如剂量、给药途径、监测间隔）迫使模型依赖精确的事实召回而非表面启发式。PCDT-QA则提供890道开放式问答，每份指南配套5个问题及参考答案，采用GPT-4.1作为裁判进行二元评分以容纳临床回答的开放性。这两个数据集以文档级别严格划分训练集与测试集，确保评估的公正性，成为检验领域适配后模型指南召回能力的黄金标准。

衍生相关工作

本研究已催生出一系列开创性工作：首先，公开的13组合成语料配置（涵盖改写、维基百科风格文章及推理式问答对）为后续多语言临床领域持续预训练提供了可复用的数据蓝图；其次，基于GRPO的强化学习框架成功将临床推理显性化为至少50词的论证过程，这种奖励机制设计启发了后续可解释临床模型的研究；再者，遗忘分析模块中引入的BLUEX、DrBode等OOD基准，建立了评估领域适应过程中通用能力保持的标准范式。论文开源的LoRA微调模型系列（从单生成器到四生成器、从CPT到RL的完整消融）已成为该领域后续对比实验的事实基线，推动了低资源临床语言模型研究的可重复性革命。

数据集最近研究