meddies-persona-vie
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/Meddies/meddies-persona-vie
下载链接
链接失效反馈官方服务:
资源简介:
Meddies Persona VIE 是一个越南语合成的患者角色数据集,专为需要更好患者背景的医疗AI团队设计。该数据集包含15万个合成的越南患者角色,旨在为生成咨询、入院记录、分诊模拟和工作流数据提供更丰富的患者背景。每个数据行代表一个患者角色,包含人口统计信息、社会和经济背景、健康和行为背景、准备就绪的叙事字段以及发布元数据。该数据集适用于生成医生-患者咨询、入院和HPI记录生成、分诊模拟、工作流测试等场景,但需要注意这是合成数据,不应用于估计患病率、医院容量等临床用途。
Meddies Persona VIE is a synthetic Vietnamese patient persona dataset designed for medical AI teams needing better patient context. The dataset contains 150,000 synthetic Vietnamese patient personas aimed at providing richer patient backgrounds for generating consultations, admission records, triage simulations, and workflow data. Each data row represents a patient persona containing demographic information, social and economic background, health and behavioral context, narrative-ready fields, and release metadata. The dataset is suitable for generating doctor-patient consultations, admission and HPI record generation, triage simulations, workflow testing, etc., but note this is synthetic data and should not be used for estimating prevalence, hospital capacity, or other clinical purposes.
创建时间:
2026-04-23
原始信息汇总
Meddies Persona VIE 数据集详情
基本信息
- 数据集名称: Meddies Persona VIE
- 语言: 越南语(单语)
- 许可证: CC-BY-NC-4.0(非商业使用)
- 数据集规模: 100K < n < 1M(包含150,000条记录)
- 创建方式: 机器生成
- 任务类别: 其他
- 标签: 医疗、医疗保健、合成、人格、越南语、患者模拟、临床模拟、文本生成
数据集目标
Meddies Persona VIE 是一个越南语合成患者人格数据集,旨在为医疗AI团队提供更丰富的患者背景信息。传统合成临床数据往往缺乏社会背景、临床真实性和文化基础,该数据集通过构建患者人格档案来解决这一问题。
数据内容
每条记录包含以下维度信息:
- 人口统计学: 年龄、性别、婚姻状况、民族、语言、宗教、省份、居住类型
- 社会与经济背景: 教育程度、职业、就业状况、家庭结构、保险状况、食品安全、数字访问能力、金融素养
- 健康与行为背景: 生活方式因素、慢性疾病、过敏史、手术史、家族病史、心理健康状况、环境暴露、文化健康观念、就医行为、健康素养
- 提示就绪的叙述字段: 主诉、现病史、症状、社会障碍、沟通风格、面向患者的叙述描述
- 发布元数据: 随机种子、时间戳、模型ID、Schema版本
数据分布与覆盖
- 年龄覆盖全生命周期
- 方言标签按预期区域聚类(如北部口音、南部口音)
- 症状呈现长尾分布
- 慢性疾病数量主要集中在低值区间
- 人口统计学、医疗保健行为和面向LLM的叙述字段覆盖密集,而药物和更深入的病史字段保持较轻的覆盖
适用场景
- 合成医患咨询
- 入院记录和现病史笔记生成
- 分诊模拟
- 工作流测试
- 跨年龄、背景、健康素养、沟通风格和社会障碍的提示压力测试(越南语医疗场景)
使用限制
- 该数据集为合成数据,不能用于估计患病率、医院容量、医疗保健利用率或国家分布
- 不能用作临床工具
- 部分人口统计学、社会经济和临床组合仍可能不现实或存在偏差
- 最终输出质量仍取决于场景设计、症状逻辑和质量控制
快速开始
python from datasets import load_dataset
ds = load_dataset("Meddies/meddies-persona-vie", split="train")
print(ds) print(ds[0].keys()) print(ds[0]["demographics"])
使用建议
建议将本数据集置于合成临床数据流水线的前端:先选择人格档案,再添加场景摘要,然后生成草稿,最后在发布前进行严格的质量控制。
反馈与合作
- 数据集提供方:Meddies 组织
- 网站:https://meddies-ai.com
- 联系邮箱:contact@meddies-ai.com
- 引用格式:@misc{meddies-persona-vie, title={Meddies Persona VIE}, author={MeddiesAI}, year={2026}, url={https://huggingface.co/datasets/Meddies/meddies-persona-vie} }
搜集汇总
数据集介绍

构建方式
Meddies Persona VIE 数据集作为越南语医疗领域合成数据的重要资源,通过自动化生成流程构建了15万个越南患者画像。这些画像并非真实患者记录,而是基于结构化模板与生成模型协同产出,首先注入人口统计学、社会经济背景、健康行为及临床相关特征,随后由语言模型辅以场景提示生成叙事性字段,如主诉、现病史、沟通风格等。构建的核心逻辑在于将患者上下文前置,使得每个记录在生成对话或临床笔记前就具备厚实的社会与临床纹理,而非仅生成表面流畅的文本。数据集伴随元数据如种子、时间戳、模型标识与库版本,确保可复现性与追溯性。
特点
该数据集最鲜明的特点在于其分层结构化设计与文化扎根性。每条画像涵盖人口学、社会经济状态、生活方式、慢性病、过敏史、手术史、家族病史、精神健康背景、环境暴露、文化健康概念及就医行为等多维特征,并特别针对越南语境纳入方言标签如“Giọng Bắc”与“Giọng Nam”。年龄覆盖完整生命周期,症状遵循长尾分布,慢性病计数保持低水平,适合场景驱动的生成需求。此外,数据集明确区分了密集字段与稀疏字段,人口学与叙事字段丰富,而用药与深层病史保持轻度填充,旨在为下游生成提供上下文锚点而非冒充完整病历。
使用方法
使用该数据集时推荐将其置于合成数据流水线的前端。研究者首先从数据集中选取一个患者画像,再搭配特定场景简报,交由生成模型产出医患对话、接诊记录、分诊模拟或工作流测试文本,最后经过严格的质检筛选方可发布。HuggingFace 用户可通过 `load_dataset` 函数快速加载并访问画像中的关键字段,尤其适用于需要体现患者变异性的越南语医疗 AI 场景,如提示压力测试、健康素养与沟通风格差异模拟等。需注意,该数据不适用于患病率估计、临床决策或国家分布推断,最终输出质量仍依赖于场景设计与症状逻辑的合理性。
背景与挑战
背景概述
在医疗人工智能领域,合成临床数据的生成已成为推动模型训练与评估的关键技术,然而多数现有方法聚焦于对话文本的流畅性,忽视了患者背景的深度与真实性。由Meddies团队于2026年创建的meddies-persona-vie数据集,正是针对这一缺陷而设计,旨在为越南语医疗场景提供高质量的患者画像数据。该数据集包含15万条合成患者档案,涵盖人口统计学、社会经济状况、健康行为及临床叙事等维度,由机器自动生成并经过严格的模式验证。其核心研究问题在于:如何通过丰富的上下文信息提升下游生成任务(如医患对话、分诊模拟)的临床可信度与文化适应性。作为越南医疗AI基础设施的重要一环,该数据集已被广泛应用于医疗文本生成的初始化阶段,显著增强了模型对患者异质性的捕捉能力。
当前挑战
该数据集所应对的领域挑战在于,现有合成临床数据常因患者背景单薄而导致生成的对话内容虽语法流畅却缺乏临床质感与文化根基。为解决此问题,Meddies团队在构建过程中需克服多项难题:首先,必须设计一套涵盖越南特有社会文化因素(如方言地域分布、宗教信仰、医疗观念)的模式架构,确保数据的本土相关性;其次,需在自动化生成时保持各字段间的逻辑一致性,避免出现不合理的组合(如高龄患者与罕见年轻化疾病的关联);最后,受限于计算资源与专家审核的匮乏,团队需依赖迭代式质量评估反馈机制来识别并修正偏见或异常模式,从而在数据广度与真实性之间取得平衡。
常用场景
经典使用场景
Meddies Persona VIE 的核心价值在于为越南语医疗场景的合成数据生成提供高质量的“患者画像”作为上游输入。该数据集包含15万条合成越南患者档案,涵盖人口统计学信息、社会经济背景、健康行为、慢性病史、家族病史、心理健康、文化观念及就医行为等丰富维度。用户可选取特定患者画像,结合临床场景设定(如门诊、急诊、分诊、健康咨询),驱动大语言模型生成逼真的医患对话、主诉记录或病情摘要。这一模式确保了生成文本的真实感与上下文一致性,避免因患者背景单薄导致输出空洞或失准。典型使用流程为:选择画像→设定场景→生成草稿→质量筛选,从而构建高质量、高变异性的医疗模拟数据管道。
实际应用
在实际医疗 AI 系统中,Meddies Persona VIE 可广泛应用于多个前沿领域。首先,它赋能医疗大语言模型的越南语临床评估,通过构造不同患者画像(如老年慢性病患者、偏远地区低健康素养人群)来检验模型的问诊逻辑与应答安全性。其次,该数据集可支撑医院信息系统的自动化演练,例如测试分诊系统对不同背景患者的问询覆盖度,或模拟省市级医疗机构的数据流转场景。此外,在医学教育与培训中,利用这些患者画像生成标准化病人案例,能够有效降低教学成本并提升情境学习的广度和深度。这些应用本质上提升了医疗 AI 对于越南多元社会文化背景的适应能力。
衍生相关工作
围绕 Meddies Persona VIE 已衍生出一系列开创性研究方向。在其直接带动下,研究者可构建具备文化感知能力的越南语患者模拟系统,通过将画像与症状逻辑引擎结合,产出更具临床真实感的合成对话。已有迹象表明,该数据集可与医疗知识图谱融合,驱动基于病例推理的智能助诊模型开发。从更广泛的学术社区看,类似工作启发了东南亚低资源语言医疗数据基础设施的建设思路,促进了对患者画像生成中公平性(如方言分布均衡)与偏差控制的研究。这些衍生探索共同勾勒出一条从结构化患者数据到鲁棒性临床 AI 的完整技术路线,为数字疗法和远程医疗在越南的落地奠定了基础。
以上内容由遇见数据集搜集并总结生成



