HELPMed|临床知识数据集|大型语言模型数据集
收藏huggingface2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/ambean/HELPMed
下载链接
链接失效反馈资源简介:
用于研究临床知识在大型语言模型中并不等同于与人交互能力的实验数据集
创建时间:
2025-04-17
原始信息汇总
HELPMed数据集概述
基本信息
- 语言: 英语 (en)
- 许可证: MIT
- 数据规模: 小于1K样本 (n<1K)
- 任务类别: 问答系统、文本分类
- 标签: 医疗
数据集组成
- 配置文件: 默认配置包含5个数据文件
background.csv: 参与者背景调查数据demographics.csv: 参与者人口统计数据examples.csv: 实验数据(参与者与LLM的交互记录)post.csv: 参与者后测调查数据scenarios.csv: 实验场景数据
文件详细说明
-
background.csv
- 内容: 参与者背景调查
- 主键:
response_id - 关联键:
participant_id(可关联demographics表)
-
demographics.csv
- 内容: 参与者人口统计信息
- 主键:
participant_id
-
examples.csv
- 内容: 实验交互数据
chat_history: 参与者与LLM的对话记录likely_cause: 相关条件响应next_step: 处置方式
- 主键:
id - 关联键:
participant_id(关联demographics表)scenario_id(关联scenarios表)
- 内容: 实验交互数据
-
post.csv
- 内容: 参与者后测调查数据
- 主键:
post_response_id - 关联键:
participant_id(可关联demographics表)
-
scenarios.csv
- 内容: 实验场景数据
- 包含紧急程度(
urgency)、鉴别诊断(full_differential)、危险信号(red_flags)等信息
- 包含紧急程度(
- 主键:
id(与examples表的scenario_id对应)
- 内容: 实验场景数据
相关研究
- 来源论文: Clinical knowledge in LLMs does not translate to human interactions
- 论文链接: https://arxiv.org/abs/2504.18919
- DOI: 10.57967/hf/5308
引用格式
bibtex @misc{beanClinicalKnowledgeLLMs2024, title = {Clinical knowledge in LLMs does not translate to human interactions}, url = {https://arxiv.org/abs/2504.18919}, doi = { 10.57967/hf/5308 }, author = {Bean, Andrew M. and Payne, Rebecca and Parsons, Guy and Kirk, Hannah Rose and Ciro, Juan and Mosquera, Rafael and Monsalve, Sara Hinacpie and Ekanayaka, Aruna and Tarassenko, Lionel and Rocher, Luc and Mahdi, Adam}, month = apr, year = {2025}, }
更新记录
- 2025年4月17日: 初始发布
- 2025年4月17日: 修正场景语法
AI搜集汇总
数据集介绍

构建方式
HELPMed数据集构建基于临床医学与大型语言模型交互研究,通过精心设计的实验流程收集数据。研究团队创建了包含特定病例详情、一般生活细节和医疗史的场景文件,采用结构化数据存储方式,包括背景调查、人口统计、实验交互记录和后期调查四个核心模块。数据采集过程严格遵循匿名化处理原则,通过唯一标识符实现各模块间的关联,确保数据完整性的同时保护参与者隐私。
特点
该数据集突出呈现临床决策场景下语言模型表现的评估维度,包含紧急程度判断、鉴别诊断分析和危险信号识别等关键医疗决策要素。独特之处在于整合了参与者与模型的完整对话历史、可能病因判断及后续处置建议,并标注了原始目标病症和MedQA问题检索词。数据以CSV和JSONL双格式提供,支持多角度分析医疗AI系统的临床推理能力与人类交互表现之间的差异。
使用方法
研究者可通过场景文件中的医学情境构建评估基准,利用实验交互数据纵向分析语言模型的临床决策模式。数据表间通过participant_id和scenario_id等关键字段实现关联,支持跨表联合分析。典型应用包括:通过chat_history字段分析医患对话特征,基于likely_cause和next_step字段评估诊断准确性,结合post_survey数据探究人机交互体验。使用前需仔细阅读各文件字段说明,建议引用原始论文建立学术关联。
背景与挑战
背景概述
HELPMed数据集由Andrew M. Bean等研究人员于2025年4月创建,旨在探究大型语言模型(LLMs)在临床医学知识应用中的局限性。该数据集源于牛津大学等机构合作的研究项目,核心研究问题聚焦于LLMs所掌握的临床知识是否能够有效转化为实际医患互动中的决策支持能力。通过收集参与者与LLMs的交互数据、背景调查及场景测试结果,该研究揭示了人工智能在医疗对话系统中的关键瓶颈,为改进医疗问答系统的实用性提供了重要实证依据。
当前挑战
HELPMed数据集面临双重挑战:在领域问题层面,需解决LLMs临床知识向实际交互能力转化的核心难题,包括医疗场景下的紧急程度判断、鉴别诊断准确性等关键医疗决策问题;在构建过程中,研究团队需克服医疗数据隐私保护、多模态临床场景建模、以及参与者与AI系统交互数据的标准化采集等复杂挑战。数据集特别强调了区分'红旗症状'识别与常规医疗咨询的边界界定问题,这要求精确设计实验场景并建立多维度的评估体系。
常用场景
经典使用场景
在医学自然语言处理领域,HELPMed数据集为研究大语言模型在临床交互中的表现提供了关键基准。该数据集通过精心设计的医疗场景对话记录,揭示了模型医学知识库与实际沟通能力之间的差距,成为评估医疗对话系统诊断准确性和沟通效能的黄金标准。研究者可基于场景文件中标注的紧急程度、鉴别诊断和危险信号等结构化数据,系统分析模型在分诊建议、病情解释等方面的表现。
实际应用
在医疗教育领域,该数据集可模拟医患对话训练场景,帮助医学生掌握病情评估与沟通技巧;临床决策支持系统开发者可利用其构建更符合实际工作流程的交互界面;医疗保险机构则能基于对话质量评估结果优化服务标准。特别值得注意的是,数据集包含的多元人口统计学信息,使得开发的辅助系统能更好地服务不同文化背景的患者群体。
衍生相关工作
该数据集的发布催生了多个重要研究方向:基于场景细分的模型微调方法显著提升了医疗对话系统的专业表现;其危险信号标注体系被扩展应用于急诊分诊算法开发;更有研究团队受其启发,构建了医疗沟通能力评估的标准化测试框架MEDCOMM。这些衍生工作共同推动了可信赖医疗AI系统的发展。
以上内容由AI搜集并总结生成



