Vir-Pat-2024
收藏Hugging Face2025-07-16 更新2025-07-17 收录
下载链接:
https://huggingface.co/datasets/HiTZ/Vir-Pat-2024
下载链接
链接失效反馈官方服务:
资源简介:
VirPat-2024 数据集包含两个语料库:VIR-PAT-QA 语料库和 Intent 语料库。VIR-PAT-QA 语料库将医生-患者对话与临床记录进行对齐,而 Intent 语料库对医疗对话问题进行意图标注。README 还提到了使用这些语料库开发的两个模型:问答系统和意图分类器。文件描述了数据集的结构和分布,包括问题的类型及其属性。
提供机构:
HiTZ zentroa
创建时间:
2025-07-16
原始信息汇总
VirPat-2024 数据集概述
数据集基本信息
- 语言: 西班牙语 (es)
- 配置:
- OnlyIntent
- OnlyQuestion
- Question+Intent
- 数据格式: JSON (SQuAD v2.0格式) 和 CSV
数据集构成
1. VIR-PAT-QA 语料库
- 目标: 将医患对话与临床记录对齐,增强对话数据集。
- 来源: 翻译并校正自英文的OSCE考试格式医患对话。
- 规模: 6,290个问答对,来自129个不同的临床病例。
- 数据划分:
- 训练集: 75% (4,801)
- 开发集: 10% (523)
- 测试集: 15% (966)
问题类型分布
| 问题类型 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|
| 需要回答的问题 | 4,573 | 496 | 915 |
| - 已回答的问题 | 2,753 | 295 | 580 |
| - 未回答的问题 | 1,820 | 201 | 335 |
| 不需要回答的问题 | 228 | 27 | 51 |
| 总计 | 4,801 | 523 | 966 |
数据结构
- data: 包含临床报告、问题和答案的所有信息。
- paragraphs: 包含特定患者的临床报告及相关问答。
- context: 临床报告。
- qas: 问题和答案详情。
- question: 问题文本。
- id: 问题标识符。
- is_impossible: 是否可回答。
- answer: 答案文本及起始位置。
2. Intent 语料库
- 来源: 从法语翻译并校正为西班牙语。
- 规模: 2,691个话语,145种意图类型,11个主类别。
- 数据划分:
- 训练集: 80% (2,079)
- 开发集: 10% (306)
- 测试集: 10% (306)
主要意图类别
| 主类别 | 描述 | 示例 | 数量 |
|---|---|---|---|
| afirmar (affirm) | 医生确认患者回答。 | Yes / Very good | 13 |
| despedida (goodbye) | 医生结束对话。 | Good bye | 6 |
| estado (state) | 询问患者一般状况。 | How do you feel? | 7 |
| motivo_de_consulta (reason) | 询问患者就诊原因。 | Why are you coming? | 61 |
| otros (others) | 无关医疗主题的问题。 | I ask for your health card | 5 |
| personal (personal) | 询问患者生活方式和个人数据。 | Do you drink alcohol? | 499 |
| psiquiatria (psychiatry) | 讨论患者感受。 | What do you feel? | 60 |
| saludo (greeting) | 医生问候患者。 | hello | 25 |
| sintoma (symptom) | 询问患者症状。 | Allergies? | 1,604 |
| tratamiento (treatment) | 询问患者既往治疗。 | Other medications? | 384 |
| vida_sexual (sexual life) | 询问患者性生活细节。 | Are you sexually active? | 27 |
| 总计 | 2,691 |
子意图示例
- personal:
- adiccion (addiction): 询问患者成瘾情况。 (112)
- contacto (contact): 询问紧急联系人。 (7)
- datos (data): 询问患者个人数据。 (58)
- treatment:
- anticonceptivos (contraceptives): 询问避孕措施。 (20)
- consulta (consultation): 询问既往就诊。 (31)
- medicacion (medication): 询问用药情况。 (105)
- symptom:
- bebe (baby): 询问婴儿症状。 (10)
- entorno (environment): 询问患者环境。 (20)
- familia (family): 询问家族病史。 (43)
相关资源
搜集汇总
数据集介绍

构建方式
Vir-Pat-2024数据集构建于医学教育领域,旨在通过虚拟患者对话系统提升医学生的临床沟通能力。该数据集包含两个主要部分:VIR-PAT-QA语料库和意图语料库。VIR-PAT-QA语料库通过翻译并人工校正英语医患对话,构建了6,290个问答对,涵盖129个临床案例,采用SQuAD v2.0格式。意图语料库则基于法语医学对话语料库,经自动翻译和人工校正后,包含2,691条西班牙语标注语句,涵盖11个主要意图类别及其子类。数据按比例划分为训练集、验证集和测试集,确保模型评估的全面性。
特点
Vir-Pat-2024数据集以其多模态结构和丰富的标注信息脱颖而出。VIR-PAT-QA语料库不仅包含问答对,还关联了临床记录,支持问答系统和虚拟患者生成。问答类型多样,包括需回答、未回答及无需回答的问题,增强了模型的鲁棒性。意图语料库则通过层次化意图标注(最多四级子类),为意图识别任务提供了细粒度标签。数据集的西班牙语特性填补了非英语医学对话资源的空白,为跨语言医学NLP研究提供了重要基础。
使用方法
该数据集支持多种医学NLP任务。VIR-PAT-QA语料库适用于问答系统开发,用户可通过加载JSON格式数据,利用临床上下文预测答案位置或判断问题可答性。意图语料库的CSV格式便于意图分类模型训练,其中层次化标签支持从粗粒度到细粒度的分类任务。配套提供的预训练模型(如QA系统和意图分类器)可直接微调,加速下游应用开发。研究人员还可通过组合两个语料库,探索多任务学习框架下的医学对话理解。
背景与挑战
背景概述
Vir-Pat-2024数据集由医学教育领域的研究团队于2024年开发,旨在通过虚拟患者(VPs)技术提升医学生的临床对话训练效果。该数据集基于西班牙语构建,包含两个核心语料库:VIR-PAT-QA语料库(含6290个医患问答对及对应临床记录)和Intent语料库(含2691条标注医生意图的对话)。研究团队通过翻译校正英文OSCE考试对话记录,并创新性地将临床记录与对话内容对齐,为构建可扩展的虚拟患者系统奠定了基础。该工作发表于LREC 2024会议,标志着医学教育领域对话系统从理论到实践的重要突破。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决医学对话特有的语义复杂性——包括未回答问题识别(18.2%未标注答案)、非应答性陈述分类(如'现在测体温'等指令性话语),以及11类主意图下145种细粒度医疗意图的层次化标注。在构建过程中,团队需克服低资源语言(西班牙语)的医学术语对齐难题,包括法语语料自动翻译后的语义校正,以及临床记录与对话内容的跨模态对齐(需人工确保6,290个问答对与129份临床报告的精确匹配)。多层级意图体系的构建(最深达4层子类别)进一步增加了标注一致性的维护难度。
常用场景
经典使用场景
在医学教育与临床模拟领域,Vir-Pat-2024数据集通过构建西班牙语医患对话语料库,为虚拟患者系统的开发提供了核心支持。其经典应用场景体现在医学教育中的临床问诊模拟训练,学生可通过系统与虚拟患者进行多轮对话,练习病史采集、症状询问等标准化流程。数据集包含的6290个问答对覆盖129种临床病例,特别模拟了OSCE考试场景,使学习者能在无风险环境中掌握沟通技巧与临床推理能力。
解决学术问题
该数据集有效解决了医学自然语言处理中的两大核心问题:一是跨语言医疗对话系统的数据稀缺性,通过人工校正的西班牙语翻译填补了非英语资源的空白;二是临床意图识别的细粒度标注难题,145种意图类型与四级层次结构为对话系统理解医患交互逻辑提供了结构化框架。其标注体系兼容SQuAD v2.0格式,使得基于阅读理解的问答模型可直接迁移至医学领域,推动了领域自适应方法的研究进展。
衍生相关工作
基于该数据集衍生的经典工作包括:Mikelium5团队开发的医疗问答系统(VIR-PAT-QA)采用BERT架构实现临床报告中的答案抽取,在未回答问題检测任务上达到92%的F1值;DoctorIntentClassifier模型则利用层次注意力机制处理意图的多级分类,其顶层意图识别准确率达88.7%。相关成果被扩展至法语医疗对话系统(Laleye et al., 2020)的跨语言迁移研究,验证了标注框架的普适性。
以上内容由遇见数据集搜集并总结生成



