conversation-quick-mode

Hugging Face2025-12-01 更新2025-12-02 收录

下载链接：

https://huggingface.co/datasets/MedVita/conversation-quick-mode

下载链接

链接失效反馈

官方服务：

资源简介：

MedVita对话快速模式数据集是一个包含8991个越南语医疗对话的数据集，用于监督微调训练。对话内容涵盖医疗健康领域，专为快速推理设计，提供更简洁的医生回应。

创建时间：

2025-11-29

原始信息汇总

MedVita Conversation Quick Mode 数据集概述

数据集基本信息

数据集名称: MedVita Conversation Quick Mode Dataset
主要用途: 用于监督微调（SFT）训练的越南语医疗对话数据集，提供简洁的医生回复。
语言: 100% 越南语
领域: 100% 医疗/健康
数据格式: SFT（监督微调）
对话总数: 8,991

对话统计数据

每轮对话的回合数

最小值: 2
平均值: 8.9
最大值: 80

每条消息的令牌数

患者（用户）:

最小值: 1
平均值: 18.4
最大值: 759

医生（助手）:

最小值: 2
平均值: 42.0
最大值: 642

代词使用分析

患者代词

tui (我 - 非正式): 18.9%
minh (我 - 随意): 18.6%
toi (我 - 正式): 18.4%
em (我 - 年轻者): 5.3%
con (我 - 孩子): 3.6%
其他: 0.8%

医生代词

minh (我 - 随意): 26.2%
bac si (医生): 24.0%
toi (我 - 正式): 0.3%

语言错误分析

为模拟真实患者输入而设计的故意打字变体：

缩写 (ko, dc, cx): 0.85%
青少年网络用语 (hem, hok, hong): 0.73%
缺少音调符号: 0.44%
拼写错误: 0.02%
俚语: 0.01%
存在错误的总比例: 2.03%

数据模式

每个对话包含以下字段： json { "doc_id": "unique-uuid", "messages": [ {"role": "user", "content": "patient message"}, {"role": "assistant", "content": "doctor response"}, {"role": "summary", "content": "conversation summary"}, {"role": "form", "content": "structured medical form"} ], "lang": "vi", "task": "sft", "domain": "Healthcare" }

与详细模式对比

指标	快速模式	详细模式
平均对话回合数	8.9	13.3
平均医生令牌数	42.0	98.7
文件大小	32.3 MB	69.1 MB

快速模式提供更简洁的回复，适合快速推理。

使用方式

python from datasets import load_dataset dataset = load_dataset("MedVita/conversation-quick-mode")

许可与引用

许可证: 本数据集为研究目的发布。
引用格式: bibtex @dataset{medvita_conversation_quick, title={MedVita Conversation Quick Mode Dataset}, author={TRIVITAAI}, year={2025} }

搜集汇总

数据集介绍

构建方式

在医疗对话数据集的构建领域，MedVita Conversation Quick Mode数据集通过精心设计的流程，聚焦于越南语医疗对话的收集与整理。该数据集总计包含8,991段对话，全部采用越南语，并严格限定在医疗健康领域。其构建遵循监督微调（SFT）格式，每段对话均包含患者与医生之间的多轮交互，平均对话轮次为8.9轮，最大可达80轮。数据采集过程中，特别模拟了真实患者输入，引入了包括缩写、网络用语、缺失音调符号等在内的故意拼写变体，错误率总计约2.03%，以增强数据集的现实代表性。每段对话均赋予唯一标识符，并结构化存储为包含用户消息、助手回复、对话摘要及结构化医疗表单的JSON格式，确保了数据的完整性与可扩展性。

使用方法

在应用层面，该数据集为越南语医疗对话模型的监督微调提供了直接可用的资源。研究人员或开发者可通过Hugging Face的`datasets`库便捷加载，使用`load_dataset("MedVita/conversation-quick-mode")`指令即可获取完整数据。数据以标准化的JSON结构组织，每条记录包含角色分明的对话序列、总结性摘要以及结构化的医疗表单信息，便于针对不同任务进行抽取与建模。鉴于其回复简洁、对话轮次适中的特点，该数据集尤其适合用于训练或优化需要高效生成医疗建议或进行初步问诊的对话系统。用户可依据其研究目的，直接利用这些对话对进行端到端的模型训练，或深入分析其中的语言模式与医疗信息结构。

背景与挑战

背景概述

在医疗人工智能领域，构建高质量、领域特定的对话数据集对于开发能够理解复杂医患交互的智能系统至关重要。MedVita Conversation Quick Mode 数据集由 TRIVITAAI 机构于 2025 年创建并发布，专注于越南语医疗对话场景。该数据集旨在通过监督微调（SFT）范式，训练生成模型以产出简洁、专业的医生回复，从而应对医疗咨询自动化中的核心研究问题——如何在保证信息准确性的前提下，实现高效、自然的对话生成。其包含近九千条纯越南语医患对话，为东南亚地区低资源语言医疗人工智能的发展提供了关键数据支撑，推动了跨语言医疗助手的技术进步与应用落地。

当前挑战

该数据集致力于解决医疗对话生成领域的核心挑战，即模型需在理解患者非正式、多变的语言表达（如使用不同人称代词、包含拼写错误和网络用语）的同时，生成准确、专业且简洁的医疗回复。这要求模型具备强大的语言理解与领域知识融合能力。在构建过程中，挑战主要源于数据采集与标注：需要模拟真实的患者输入，包含故意引入的拼写变体、缩写和缺失音调符号等语言错误，以提升模型的鲁棒性；同时，确保医生回复在简洁化处理后仍保持医学准确性和完整性，这需要专业的医学知识进行严格的质量控制与校验。

常用场景

经典使用场景

在医疗人工智能领域，对话数据集的构建对于提升模型的专业交互能力至关重要。MedVita Conversation Quick Mode数据集以其越南语医疗对话的简洁特性，成为监督微调（SFT）训练中的经典资源。该数据集通过模拟真实医患交流场景，其中医生回复经过优化以保持精炼，适用于需要快速生成响应的推理任务，如构建医疗聊天机器人或辅助诊断系统，从而在保持信息准确性的同时提升交互效率。

解决学术问题

该数据集针对自然语言处理在医疗领域的应用，解决了多语言医疗对话数据稀缺的学术挑战。通过提供高质量的越南语医患对话样本，它支持研究人员探索跨文化医疗交流的语义理解与生成问题，促进了低资源语言环境下医疗人工智能模型的发展。其意义在于为医疗对话系统的公平性与可及性研究提供了数据基础，推动了全球化健康信息服务的均衡进步。

实际应用

在实际医疗环境中，该数据集可直接应用于开发智能医疗助手，帮助患者进行初步症状咨询或健康管理。例如，在越南地区的医院或在线医疗平台，基于此数据集训练的模型能够以简洁、专业的语言回应患者查询，减轻医护人员负担，并提升医疗服务的覆盖范围与响应速度。同时，它还可用于医疗教育工具，模拟真实对话以培训医学生。

数据集最近研究