Health_QA_English

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/Kakyoin03/Health_QA_English

下载链接

链接失效反馈

官方服务：

资源简介：

Health QA English数据集是一个高度结构化的医学问答数据集，包含经过提取、清理和标准化的英文医学问答对。该数据集是BRAIN HEALTH (HELIX-FT)项目的基准数据集，旨在微调大型语言模型（LLMs）以充当医疗助手。数据集包含18,876个高质量的医学问答对，每个条目包含以下字段：问题（question）、结构化问题（context_question）、答案（answer）、专业领域（speciality）、紧急程度（urgency）、提取的临床实体（entities）和问题主题标题（article_title）。数据集经过严格的评估，包括基于LLM的RAG Triad指标（如上下文相关性、忠实性、专业性和答案相关性）和经典NLP指标（如词汇多样性、重复率、语义相似度等）。

The Health QA English dataset is a highly structured medical question-answering dataset containing extracted, cleaned, and standardized English medical question-answer pairs. This dataset serves as a benchmark for the BRAIN HEALTH (HELIX-FT) project, aiming to fine-tune large language models (LLMs) to act as medical assistants. The dataset includes 18,876 high-quality medical question-answer pairs, with each entry containing the following fields: question, context_question, answer, speciality, urgency, entities, and article_title. The dataset has undergone rigorous evaluation, including LLM-based RAG Triad metrics (such as context relevance, faithfulness, professionalism, and answer relevance) and classical NLP metrics (such as lexical diversity, repetition rate, semantic similarity, etc.).

创建时间：

2026-04-23

原始信息汇总

Health QA English 数据集概述

基本信息

数据集名称: Health QA English
语言: 英语
许可协议: MIT
数据集大小: 10,000 < n < 100,000（实际包含 18,876 条高质量医疗问答对）
任务类型: 问答（Question-Answering）、文本生成（Text Generation）
数据集链接: https://huggingface.co/datasets/Kakyoin03/Health_QA_English

数据集背景

该数据集是 BRAIN HEALTH (HELIX-FT) 项目的基线数据集，旨在用于微调大型语言模型（LLMs）以充当医疗助手。数据经过提取、清洗和标准化处理，结构高度规范化。

数据结构

每条数据包含以下字段：

question: 患者提出的原始问题
context_question: 结构化、摘要化的问题版本，保留症状信息
answer: 医疗专业人员的回答
speciality: 医学领域（如心脏病学、皮肤科）
urgency: 分诊级别（Faible、Moyen、Fort）
entities: 提取的临床实体（年龄、症状、疾病、药物）
article_title: 问题上下文的主题标题

评估与验证

数据集采用 LLM-as-a-judge 评估框架，结合 Grok-4.20-Reasoning（xAI）与经典 NLP 指标进行严格评估。

1. RAG Triad 指标（Grok-4.20 评估）

指标	得分	说明
上下文相关性	4.45 / 5.0	捕捉患者症状的准确性高
忠实性	4.35 / 5.0	事实依据优秀
专业性	4.05 / 5.0	医学语气正式、专业
答案相关性	3.80 / 5.0	临床回答目标明确、严格

2. 词汇与数据多样性指标

类型-符号比率（TTR）：问题部分为 0.0283（词汇多样性较低，体现标准医疗形式化）
完全重复率：18.04%（原始网络爬取数据的典型特征）
近似重复率（Jaccard > 80%）：0.0006%

3. 自动 NLP 管道评分

语义相似度（余弦相似度）：0.5349
BERTScore（F1）：0.8505
安全评分（危险关键词检测）：99.2%

评估代码

数据集使用 llm_as_a_judge.py 脚本，基于 RAG Triad 框架进行指标提取，调用 Grok-4.20-reasoning 模型对问答样本进行评分。

搜集汇总

数据集介绍

构建方式

Health_QA_English数据集源自对互联网上高度结构化的医疗问答数据的精细提取、清洗与标准化处理，最终汇聚成包含18,876条高质量英文医患问答对的语料库。每条记录均涵盖原始患者提问、经结构化处理并保留症状的上下文问题、专业医师的应答、所属医学专科（如心脏病学、皮肤科）、分诊紧急程度、提取的临床实体（如年龄、症状、疾病与药物）以及问题主题标题等字段，构建过程凸显了数据纯净度与临床实用性。

特点

本数据集在构建过程中引入了基于Grok-4.20-Reasoning模型与经典NLP指标相结合的严苛评估框架，展现出卓越的上下文相关性（4.45/5.0）、事实忠诚度（4.35/5.0）与专业规范性（4.05/5.0）。其语义相似度达0.5349，BERTScore F1值为0.8505，而安全性评分高达99.2%，极低近似重复率（Jaccard>80%仅为0.0006%）确保了数据多样性与临床应答的精准靶向。

使用方法

该数据集专为大语言模型在医疗辅助场景下的微调而设计，可直接用于问答与文本生成任务。使用者可通过HuggingFace平台加载，利用其结构化的question、context_question、answer等字段构建训练样本。随附的评估脚本llm_as_a_judge.py提供了一套基于RAG Triad框架的自动化质检流程，支持通过Grok-4.20等模型对上下文相关性、忠实度与专业性进行量化评分，便于开发者衡量模型微调效果。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域中，大规模、高质量的医学问答数据集是构建可靠医疗大语言模型（LLM）的基础资源。Health_QA_English数据集于近期由BRAIN HEALTH（HELIX-FT）项目团队创建，旨在微调LLM以充当智能医疗助手。该数据集精心收录了18,876对结构化医学问答，涵盖心内科、皮肤科等多个专科领域，并创新性地融入了分诊等级、临床实体抽取等元信息，为提升医疗对话系统的专业性和安全性提供了标准化基准。其研究核心聚焦于解决非结构化医疗问答在事实一致性、语境相关性及专业语气上的瓶颈，对推动LLM在临床辅助决策中的应用具有重要价值。

当前挑战

该数据集面临的核心挑战包括：1）领域问题的复杂性——医疗问答要求极高的事实准确性（Faithfulness得分4.35/5.0）和临床相关性（Answer Relevance仅3.80/5.0），模型需精准区分症状描述与诊疗建议，避免误导性输出；2）数据构建过程的多样性难题——原始网络爬取数据存在低词汇多样性（问题TTR=0.0283）和18.04%的精确重复，需严格的去重与标准化处理；3）安全性与伦理性挑战——尽管危险关键词检测安全分达99.2%，但医学场景下任何微小偏差都可能导致严重风险，使得评估框架需融合LLM-as-a-Judge与经典NLP指标以保障可靠性。

常用场景

经典使用场景

Health_QA_English数据集作为BRAIN HEALTH（HELIX-FT）项目的基准语料库，经典应用场景聚焦于医疗领域大语言模型的指令微调。该数据集合含18,876条高保真医学问答对，每条记录不仅包含原始医患问答，还精心设计了结构化上下文问题、临床实体标签（如年龄、症状、疾病、药物）及分诊紧急程度，为模型提供了多维度、标准化的训练信号。研究者常利用该数据集增强LLM对医疗谘询的理解能力，使其能够从非结构化的患者叙述中精准提取关键临床信息，并生成专业、安全、忠于医学事实的回应。这一基准场景奠定了将通用LLM转化为可靠医学助手的基础路径。

衍生相关工作

该数据集衍生了一系列推动医疗NLP发展的经典工作。首要影响在于推动了基于RAG（检索增强生成）框架的医学问答系统评测基准，研究者常复用该数据集的三元组结构（原始问题、结构化上下文、专业答案）构建和验证检索排序器的性能。其次，数据集中细致的实体标注（entities字段）被用于训练临床命名实体识别模型，支撑从患者主诉中自动化抽取时序症状、用药史等关键信息。此外，受该数据集“紧急度”标签启发，衍生出医疗对话分诊优先级分类任务，催生了多篇关于时序注意力机制与对话紧急度预测的研究。这些工作环环相扣，共同织就了从数据到模型再到临床落地的完整研究链条。

数据集最近研究