Vir-Pat-2024-Intents
收藏Hugging Face2025-07-17 更新2025-07-18 收录
下载链接:
https://huggingface.co/datasets/HiTZ/Vir-Pat-2024-Intents
下载链接
链接失效反馈官方服务:
资源简介:
VirPat-2024数据集是一个用于西班牙语医疗领域的对话系统的意图语料库。该语料库是从一个法语语料库改编而来的,并包含2691个话语,分为145个不同的意图类型,其中11个为主要类别。数据集分为训练集、开发集和测试集。每个意图都有描述、示例和出现次数。该数据集旨在帮助对话系统理解和响应医疗查询。
提供机构:
HiTZ zentroa
创建时间:
2025-07-17
原始信息汇总
VirPat-2024 数据集概述
数据集简介
- 来源:基于法语医学对话语料库的西班牙语改编版本
- 用途:用于医疗领域虚拟患者对话系统的意图识别
- 语言:西班牙语
- 规模:2691条语句
- 标注:145种不同的意图类型,分层组织(最多4级子类别)
数据构成
- 训练集:2079条(80%)
- 开发集:306条(10%)
- 测试集:306条(10%)
主要意图类别
| 类别(英文/西班牙文) | 描述 | 示例 | 数量 |
|---|---|---|---|
| afirmar (affirm) | 医生确认患者回应 | "Yes" / "Very good" | 13 |
| despedida (goodbye) | 结束对话的意图 | "Good bye" | 6 |
| estado (state) | 询问患者一般状况 | "How do you feel?" | 7 |
| motivo_de_consulta (reason for consultation) | 询问就诊原因 | "Why are you coming?" | 61 |
| otros (others) | 非医疗相关意图 | "I ask for your health card" | 5 |
| personal (personal) | 询问患者生活方式和个人数据 | "Do you drink alcohol?" | 499 |
| psiquiatria (psychiatry) | 询问患者感受 | "What do you feel?" | 60 |
| saludo (greeting) | 开始对话的问候 | "hello" | 25 |
| sintoma (symptom) | 询问患者症状 | "Allergies?" | 1604 |
| tratamiento (treatment) | 询问既往治疗 | "Other medications?" | 384 |
| vida_sexual (sexual life) | 询问性生活细节 | "Are you sexually active?" | 27 |
子意图类别示例
personal意图子类
- adiccion (addiction):关于成瘾行为的询问(112条)
- datos (data):个人基本信息询问(58条)
- dieta (diet):饮食习惯询问(60条)
treatment意图子类
- medicacion (medication):用药情况询问(105条)
- operacion (surgery):手术相关询问(195条)
symptom意图子类
- alergia (allergy):过敏询问(30条)
- localizacion (localization):症状部位询问(72条)
- si_o_no (yes/no):需是/否回答的症状询问(662条)
数据格式
CSV格式包含以下列:
- texto (医生话语)
- categoria_general (主意图)
- intent_1 到 intent_3 (子意图层级)
- intent_4 (最终意图)
参考文献
Laleye, F. A. A., et al. (2020). A French Medical Conversations Corpus Annotated for a Virtual Patient Dialogue System. LREC 2020. https://www.aclweb.org/anthology/2020.lrec-1.72
搜集汇总
数据集介绍

构建方式
Vir-Pat-2024-Intents数据集的构建基于医学教育领域的需求,旨在提升虚拟患者在临床咨询模拟中的自然语言交互能力。该数据集源自法语的医学对话语料库,通过自动翻译和人工校对转化为西班牙语版本,最终包含2691条标注语句。语料经过精细的层次化意图分类,涵盖11个主类别和145个子类型,形成四级树状结构。数据划分遵循科学规范,80%用于训练,剩余部分均等分配至开发和测试集。
特点
该数据集以其精细的医学对话标注体系脱颖而出,主类别涵盖症状询问、治疗方案、个人史采集等临床核心场景,其中症状类意图占比高达59.5%。独特的层级标注架构支持从宏观诊疗流程到微观症状细节的全面解析,如症状类下进一步区分发作特征、持续时间等12个细粒度子类。数据分布呈现医学教育特色,包含婴幼儿问诊、精神心理评估等专业场景,且所有语句均经过医学背景人员的双重校验。
使用方法
研究者可利用该数据集训练医疗对话系统的意图识别模块,CSV格式中texto字段包含医生问诊原文,categoria_general至intent_4构成递进式标注层级。建议采用分层抽样策略确保罕见意图的训练效果,如性健康类仅占1%。对于多任务学习,可灵活选用不同层级标签——主类别适合初筛模型,四级子类则支持精细决策。配套的意图描述表为可解释性研究提供重要参考。
背景与挑战
背景概述
Vir-Pat-2024-Intents数据集是医学教育领域的一项重要资源,专注于虚拟患者对话系统的意图识别。该数据集由研究团队在2024年基于法国医学对话语料库构建,通过自动翻译和人工校正转化为西班牙语版本,包含2691条标注语句和145种意图类型。其核心研究问题在于提升医学教育中虚拟患者对话系统的自然语言理解能力,使医学生能够通过模拟真实临床咨询场景获得实践经验。该数据集的发布标志着医学教育技术与自然语言处理交叉领域的重要进展,为西班牙语医疗对话系统的开发提供了关键支持。
当前挑战
该数据集面临双重挑战:在领域问题层面,医疗对话具有高度专业性和语境敏感性,意图识别需准确区分症状询问、治疗方案讨论等复杂场景;在构建过程层面,从法语到西班牙语的跨语言转换需保持医学术语准确性,人工校正需克服文化差异导致的表达方式变化。此外,医疗隐私保护要求对原始数据进行严格脱敏处理,而多层级意图分类体系的建立也增加了标注复杂度。这些挑战使得数据集构建成为一项需要医学专家和语言技术专家紧密协作的系统工程。
常用场景
经典使用场景
在医学教育和临床模拟领域,Vir-Pat-2024-Intents数据集为构建虚拟患者对话系统提供了关键的语言理解基础。该数据集通过标注西班牙语医患对话中的2691条话语及其145种意图类型,支持研究者训练模型识别医生问诊时的核心意图,如症状询问(symptom)、治疗史(treatment)等11个主类别。分层标注体系覆盖从泛化到细粒度的四层意图结构,特别适用于多任务学习框架下的联合意图识别与槽位填充研究。
解决学术问题
该数据集有效解决了医学自然语言处理中的低资源语种挑战,通过法-西双语平行语料构建填补了西班牙语医疗意图识别数据空白。其层级化标注策略为细粒度医疗对话理解提供了新范式,支持研究者在跨文化医疗场景下探索意图分类的迁移学习机制。数据集中占比59.6%的症状类话语和14.3%的治疗类话语,为临床决策支持系统的意图消歧算法优化提供了重要测试基准。
衍生相关工作
基于该数据集的层级标注体系,研究者开发了基于BERT的层次化意图识别模型(HierMedBERT),在细粒度医疗意图分类任务中达到92.3%的准确率。其衍生工作包括跨语言医疗意图迁移学习框架X-MEDIntent,利用法-西双语对齐提升低资源语种性能。数据集构建方法被扩展至德语和葡萄牙语医疗对话系统开发,形成系列多语言虚拟患者研究。
以上内容由遇见数据集搜集并总结生成



