conversation-detail-mode
收藏Hugging Face2025-12-01 更新2025-12-02 收录
下载链接:
https://huggingface.co/datasets/MedVita/conversation-detail-mode
下载链接
链接失效反馈官方服务:
资源简介:
MedVita对话详细模式数据集是一个包含详细医生回应的越南语医疗对话数据集,用于监督微调(SFT)训练。该数据集共有8816场对话,全部为越南语,涉及医疗/健康护理领域。每场对话平均包含13.3个回合,对话中的消息包括患者信息、医生回应、对话总结和结构化医疗表格。
创建时间:
2025-11-29
原始信息汇总
MedVita Conversation Detail Mode 数据集概述
数据集基本信息
- 数据集名称: MedVita Conversation Detail Mode Dataset
- 主要用途: 用于SFT(监督微调)训练的越南语医疗对话数据集,包含详细的医生回复。
- 语言: 100% 越南语
- 领域: 100% 医疗/健康
- 格式: SFT(监督微调)
- 对话总数: 8,816
对话统计信息
每轮对话的回合数
- 最小值: 2
- 平均值: 13.3
- 最大值: 92
每条消息的令牌数
- 患者 (用户)
- 最小值: 1
- 平均值: 17.3
- 最大值: 665
- 医生 (助手)
- 最小值: 2
- 平均值: 98.7
- 最大值: 1,035
代词使用分析
患者代词使用频率
- toi (我 - 正式): 16.9%
- tui (我 - 非正式): 16.2%
- minh (我 - 随意): 13.7%
- em (我 - 年轻者): 4.4%
- con (我 - 孩子): 2.7%
- 其他: 1.1%
医生代词使用频率
- bac si (医生): 39.1%
- minh (我 - 随意): 15.1%
- toi (我 - 正式): 5.3%
语言错误分析
为模拟真实患者输入而设计的故意打字变体:
- 缩写 (ko, dc, cx): 0.90%
- 网络语 (hem, hok, hong): 0.64%
- 缺少声调符号: 0.31%
- 拼写错误: 0.04%
- 俚语: 0.01%
- 存在错误的总比例: 1.87%
数据结构
每个对话包含以下字段: json { "doc_id": "唯一标识符", "messages": [ {"role": "user", "content": "患者消息"}, {"role": "assistant", "content": "医生回复"}, {"role": "summary", "content": "对话摘要"}, {"role": "form", "content": "结构化医疗表格"} ], "lang": "vi", "task": "sft", "domain": "Healthcare" }
使用方式
python from datasets import load_dataset dataset = load_dataset("MedVita/conversation-detail-mode")
许可与引用
- 许可证: 本数据集为研究目的发布。
- 引用格式: bibtex @dataset{medvita_conversation_detail, title={MedVita Conversation Detail Mode Dataset}, author={TRIVITAAI}, year={2025} }
搜集汇总
数据集介绍

构建方式
在医疗对话生成领域,高质量的监督微调数据对提升模型专业能力至关重要。MedVita Conversation Detail Mode数据集通过系统化流程构建,涵盖8,816段越南语医患对话,每段对话平均包含13.3轮交互。数据采集严格遵循医疗领域规范,采用结构化标注框架,每条记录均包含患者咨询、医生详细回复、对话摘要及结构化病历表单四层信息。构建过程中特别注重对话轮次的自然分布与医疗术语的准确性,确保数据在语言表达和医学专业性上达到平衡。
特点
该数据集在语言学与医学交叉维度呈现显著特征。语言层面完整保留越南语代词体系的社会语言学差异,患者自称涵盖从正式语体“toi”到亲昵语体“con”的六类变体,医生应答则突出“bac si”职业身份标识。文本真实性通过植入1.87%的典型输入误差得以增强,包括缩写变体、声调符号缺失等常见语言现象。医学专业性体现在平均98.7个词元的医生回复长度,确保病理解释与治疗建议的完整性,同时通过结构化病历表单实现非文本医疗信息的系统化表征。
使用方法
针对监督微调任务的应用场景,该数据集提供标准化调用接口。研究人员可通过HuggingFace数据集库直接加载,采用role-content对话框架进行模型训练。使用时应关注多轮对话的连贯性建模,充分利用summary字段的对话摘要与form字段的结构化信息,构建从自由文本到规范医疗记录的映射能力。建议在预处理阶段保留原始语言特征,包括代词变体与可控误差,以增强模型对真实医疗对话场景的适应能力。
背景与挑战
背景概述
随着人工智能在医疗健康领域的深度应用,构建高质量、专业化的对话数据集成为推动医疗对话系统发展的关键。MedVita Conversation Detail Mode Dataset 由 TRIVITAAI 机构于 2025 年发布,专注于越南语医疗对话场景。该数据集旨在通过监督微调(SFT)训练,提升模型在医患交互中的理解与生成能力,其核心研究问题聚焦于如何利用详尽的医生响应数据,优化模型对复杂医疗咨询的回应质量,从而为越南语地区的智慧医疗发展提供重要的数据基础。
当前挑战
该数据集致力于解决医疗对话生成领域的核心挑战,即模型需准确理解患者多样化的语言表达(包括正式、非正式称谓及常见拼写变体),并生成专业、详尽且符合医疗规范的医生回复。在构建过程中,挑战主要体现在如何真实模拟患者输入的语言变异,如缩写、网络用语及缺失音调符号,同时确保医生回复的医学准确性与信息完整性,这要求数据收集与标注过程具备高度的语言学敏感性和医学专业知识。
常用场景
经典使用场景
在越南语医疗对话生成领域,该数据集为监督微调提供了高质量的专业语料。其核心应用场景在于训练医疗对话系统,模拟真实医患交互过程,涵盖从症状描述到诊断建议的完整对话流程。数据集通过精细标注的医生响应,能够引导模型生成符合医疗规范、具有同理心且信息详尽的回答,特别适用于构建越南语医疗助手,以应对非英语地区医疗资源分布不均的挑战。
实际应用
在实际应用中,该数据集可直接用于开发越南语智能问诊系统或医疗聊天机器人。这些系统能够作为初级分诊工具,帮助患者初步了解病情、获取就医指导,从而缓解医疗机构的前台咨询压力。此外,数据集也可用于培训医学教育中的沟通模拟软件,帮助医学生练习与不同语言风格患者的交流技巧,提升其临床沟通能力与人文关怀素养。
衍生相关工作
基于此数据集衍生的经典工作,主要集中在越南语医疗大语言模型的指令微调与对齐研究。研究者利用其详尽的医生响应,优化模型在专业领域的回复准确性与安全性。相关工作也探索了如何将此类高质量对话数据与通用语料结合,以提升模型在保持专业性的同时,不丧失通用对话的流畅度,为构建领域适应性强、负责任的人工智能助手提供了重要范例。
以上内容由遇见数据集搜集并总结生成



