meddies-consultant
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/Meddies/meddies-consultant
下载链接
链接失效反馈官方服务:
资源简介:
Meddies Consultant 是一个以越南语为主的临床咨询和问答监督数据集,旨在为构建更安全的医疗AI提供支持。该数据集包含多轮双语(越南语和英语)咨询、随机医疗问答以及仅含问题的提示,适用于医疗对话生成和问答任务。数据集分为四个配置:english(109,005条多轮英语咨询,平均16.12轮/例)、vietnamese(58,064条多轮越南语咨询,平均12.33轮/例)、RandomQA(67,372条问答监督数据)和RandomQuestion(61,162条仅含问题的数据)。数据字段包括咨询配置的messages、target_disease和patient_persona,以及问答数据的question、answer、category和complexity。数据集覆盖1,236种目标疾病,并采用FIFE和OPQRST等患者中心化访谈框架。适用于越南语优先的医疗助手指令调优、双语迁移研究以及医疗检索实验。数据集为CC-BY-NC-4.0许可,强调其作为合成训练数据的性质,不应用于临床决策。
Meddies Consultant is a Vietnamese-focused clinical consultation and question-answer supervision dataset designed to support the development of safer medical AI. The dataset includes multi-turn bilingual (Vietnamese and English) consultations, random medical Q&A, and question-only prompts, suitable for medical dialogue generation and Q&A tasks. The dataset is divided into four configurations: english (109,005 multi-turn English consultations, averaging 16.12 turns/case), vietnamese (58,064 multi-turn Vietnamese consultations, averaging 12.33 turns/case), RandomQA (67,372 Q&A supervision data), and RandomQuestion (61,162 question-only data). Data fields include messages, target_disease, and patient_persona for consultation configurations, and question, answer, category, and complexity for Q&A data. The dataset covers 1,236 target diseases and employs patient-centered interview frameworks such as FIFE and OPQRST. It is suitable for Vietnamese-priority medical assistant instruction tuning, bilingual transfer research, and medical retrieval experiments. The dataset is licensed under CC-BY-NC-4.0, emphasizing its nature as synthetic training data and not for clinical decision-making.
创建时间:
2026-04-14
原始信息汇总
Meddies Consultant 数据集概述
数据集基本信息
- 数据集名称:Meddies Consultant
- 语言:越南语(vi)、英语(en)
- 许可证:CC-BY-NC-4.0
- 标注创建者:机器生成
- 语言创建者:机器生成
- 多语言类型:多语言
- 数据规模:100K < n < 1M
- 任务类别:问答、文本生成
- 标签:医疗、健康护理、越南语、英语、临床对话、FIFE、OPQRST、多轮对话
数据集内容与结构
该数据集包含四个配置(config),提供不同风格的监督数据类型:
| 配置名称 | 行数 | 平均轮次/示例 | 说明 |
|---|---|---|---|
| english | 109,005 | 16.12 | 多轮英语咨询对话,包含 target_disease 和 patient_persona |
| vietnamese | 58,064 | 12.33 | 多轮越南语咨询对话,采用相同精简模式 |
| RandomQA | 67,372 | 2.00 | 问答形式的监督数据,包含 category 和 complexity |
| RandomQuestion | 61,162 | 1.00 | 仅问题的监督数据,适用于提示或检索类任务 |
数据模式(Schema)
- 咨询配置(english / vietnamese):
id、subset、messages、target_disease、turns_count、patient_persona - RandomQA:
id、messages、question、answer、category、complexity、turns_count - RandomQuestion:
id、messages、question、category、complexity、turns_count
数据覆盖与统计
| 配置 | 行数 | 用户消息数 | 助手消息数 |
|---|---|---|---|
| english | 109,005 | 826,308 | 930,683 |
| vietnamese | 58,064 | 329,728 | 386,082 |
| RandomQA | 67,372 | 67,372 | 67,372 |
| RandomQuestion | 61,162 | 61,162 | 0 |
数据质量与控制
公开资料中明确提及以下质量控制措施:
- 确定性回退ID(针对无源ID的行)
- 重复检测(文件级别和全局级别)
- 解析与结构异常检查
- 审核标准涵盖:完整性、适当性、自然性、共情能力、OPQRST质量、FIFE对齐、结构连贯性和安全性
适用范围与限制
适用场景
- 越南语优先的医疗咨询助手指令微调
- 追问能力和对话结构评估
- 英越双语咨询数据的迁移学习
- 窄域医疗检索或答案生成实验的问答监督
限制说明
- 属于合成训练数据,非医疗建议
- 不可作为授权的临床应用或部署审批
- QA行不可作为引用的临床指导
- 英越数据分割不保证平衡
- 精简模式不代表完整的患者病历
使用示例
python from datasets import load_dataset
consult_vi = load_dataset("Meddies/meddies-consultant", "vietnamese", split="train") consult_en = load_dataset("Meddies/meddies-consultant", "english", split="train") qa = load_dataset("Meddies/meddies-consultant", "RandomQA", split="train")
支持通过 streaming=True 参数进行流式加载。
引用信息
bibtex @dataset{meddies_consultant_2026, title={Meddies Consultant: Vietnamese-first medical consultation and QA dataset}, author={MeddiesAI}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/Meddies/meddies-consultant} }
搜集汇总
数据集介绍

构建方式
Meddies Consultant 数据集通过合成数据生成管线构建,旨在模拟临床咨询与问答场景。其构建流程始于患者画像与目标疾病的设计,随后依托 FIFE(感受、想法、功能、期望)与 OPQRST(起病、诱发、部位、性质、放射、时间、严重程度)等以患者为中心的访谈框架,生成多轮对话内容。生成的数据经过规范化处理与结构化审查,涵盖完整性、自然度、共情表达及安全性的多维校验,最终划分为英语、越南语、随机问答及随机问题四个配置子集,分别存储为 Parquet 格式。
特点
该数据集的核心特色在于其双语(越南语与英语)多轮临床咨询结构,涵盖 1,236 种目标疾病,为医疗对话模型提供深度交互样本。各配置子集设计紧凑:咨询类数据包含患者画像、疾病标签及平均 12-16 轮的对话记录;问答类数据则标注了类别与复杂度字段,支持窄域实验。数据集通过确定性回退 ID、全局去重与结构异常检测保障质量,并明确列陈审查标准,使其在医疗 AI 训练中兼具结构丰富性与可靠性。
使用方法
用户可通过 Hugging Face Datasets 库轻松加载该数据集,指定配置名称如 "vietnamese"、"english" 或 "RandomQA",并选择流式加载以节省存储资源。数据集适用于越南语优先的咨询助手指令微调、多轮对话评估、双语迁移学习及医疗检索或答案生成实验。使用时需注意其合成属性,避免作为临床诊断依据,并建议在部署前进行独立验证与安全审查。
背景与挑战
背景概述
Meddies Consultant数据集由MeddiesAI团队于2026年发布,专为越南语优先的临床对话与医疗问答设计,旨在弥补现有医疗AI训练数据中多轮咨询结构缺失的空白。该数据集以越南语和英语双语呈现,涵盖109,005条英文咨询、58,064条越南语咨询及随机问答与问题集,涉及1,236种目标疾病,并融入FIFE与OPQRST等患者中心访谈框架。作为首个大规模多轮医疗咨询语料库,它通过结构化的对话模式强化了模型在复杂临床场景中的推理能力,尤其对低资源语言背景下医疗AI的鲁棒性和安全性产生了深远影响。
当前挑战
该数据集面临的核心挑战在于解决医疗对话中结构化咨询的稀缺性问题:传统单轮问答或通用对话数据无法培养模型进行逻辑化问诊与多轮追问的能力,尤其在越南语等低资源语言中缺乏基准。构建过程中,团队需应对合成数据生成的质量控制难题,包括确保对话的自然性、共情表现及临床安全性,并依靠确定性回退ID、去重与结构异常检测等多重审查机制。此外,数据集的四类配置(英语/越南语咨询、随机QA、随机问题)需权衡结构化深度与实验灵活性,且英语与越南语子集不平衡、合成数据的临床可靠性依赖下游验证,均为实际部署中的隐忧。
常用场景
经典使用场景
Meddies Consultant数据集的核心用途在于为医疗对话系统提供结构化、多轮次的中文咨询训练数据。其经典使用场景聚焦于基于病人中心访谈框架(如FIFE与OPQRST)的临床对话生成与监督学习,覆盖逾千种目标疾病。研究者可借助该数据集的英文与越南文双语配置,训练模型掌握病史采集、症状追问及共情回应等咨询行为,从而弥补传统单轮问答数据在复杂临床互动中的结构性缺失。该数据集以紧凑的schema记录咨询轮次、目标疾病与病人画像,为构建具备深度对话能力的医疗AI助手提供了高保真的训练素材。
解决学术问题
该数据集有效回应了医疗AI领域中因训练数据缺乏多轮咨询结构而导致的模型“只会回答、不会咨询”这一核心学术困境。传统QA数据集往往聚焦于单轮知识问答,忽视了临床实践中病史采集、鉴别诊断逻辑与医患互动的动态特性。Meddies Consultant通过引入结构化的咨询框架和逾10万条英文对话样例,为研究者提供了研究模型在复杂临床语境下如何组织追问、切换主题及保持对话连贯性的实验基础。这一资源对推动多轮医疗对话生成、跨语言咨询迁移学习以及医患沟通质量评估等议题具有深远的方法论意义和学术影响。
衍生相关工作
Meddies Consultant的发布已然催生了多项衍生的经典研究工作。围绕该数据集,学界和工业界逐步展开了关于多轮医疗对话生成质量评估框架的构建,探索如何利用FIFE与OPQRST框架作为对话结构监督信号以提升模型在病史采集中的系统性。此外,该数据集促进了跨语言医疗AI领域的迁移学习研究,特别是越南文与英文间咨询行为的对齐与知识迁移。部分工作还利用其RandomQA配置,开发了面向医学考试或临床决策支持的新型基准测试集,进一步拓展了数据集在评测方法论与安全医疗AI应用中的学术边界。
以上内容由遇见数据集搜集并总结生成



