IndicMedDialog

Name: IndicMedDialog
Creator: 伯明翰大学; 传统技术学院; 马丹·莫汉·马拉维亚科技大学
Published: 2026-05-13 18:06:38
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://github.com/ShubhamKumarNigam/IndicMedDialog

下载链接

链接失效反馈

官方服务：

资源简介：

IndicMedDialog是由伯明翰大学等机构构建的首个平行多轮医疗对话数据集，涵盖英语及九种印度语言，旨在促进低资源语言的医疗可及性。该数据集包含2,980条平行对话，总计29,800个语言实例，基于MDDial数据集扩展，通过Llama-3.3-70B生成合成咨询，并利用TranslateGemma翻译后经母语者验证。数据集覆盖12种疾病类别和118种症状，模拟真实医患交互，应用于多语言医疗对话系统训练，以解决单轮问答模板在临床现实性和语言多样性方面的不足。

IndicMedDialog is the first parallel multi-turn medical dialogue dataset, constructed by institutions such as the University of Birmingham. It covers English and nine Indian languages, with the goal of advancing medical accessibility for low-resource languages. This dataset contains 2,980 parallel dialogues, totaling 29,800 language instances, and is expanded from the MDDial dataset. Synthetic consultations were first generated using Llama-3.3-70B, then translated via TranslateGemma, and finally verified by native speakers. Covering 12 disease categories and 118 symptoms, the dataset simulates real doctor-patient interactions. It is applied to the training of multilingual medical dialogue systems, addressing the shortcomings of single-turn question-answer templates in terms of clinical realism and linguistic diversity.

提供机构：

伯明翰大学; 传统技术学院; 马丹·莫汉·马拉维亚科技大学

创建时间：

2026-05-13

原始信息汇总

数据集概述：IndicMedDialog

基本信息

全称：IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages
发表会议：BioNLP@ACL2026
论文地址：https://arxiv.org/abs/2605.13292v1
GitHub 仓库：https://github.com/ShubhamKumarNigam/IndicMedDialog

数据集描述

IndicMedDialog 是一个多语言、多轮次的医疗对话数据集，旨在模拟真实的医生-患者咨询场景，推动对话式人工智能在初步医疗咨询中的应用。

数据来源与构建

基于 MDDial 语料库 进行扩展
利用 大语言模型 生成合成咨询对话
构建为 并行多轮医疗对话数据集

覆盖语言

数据集包含 10种语言：

英语
9种印度语言：阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语、乌尔都语

技术特点

训练模型：基于量化小语言模型，采用参数高效微调方法
部署优势：无需高端计算基础设施即可部署
个性化功能：可选的患者前置上下文信息（年龄、性别、过敏史、体重等），用于个性化咨询

实验效果

实验结果表明，该系统能够通过多轮对话有效进行症状询问，并生成诊断建议。

联系方式

如有疑问，可通过以下邮箱联系作者：

shubhamkumarnigam@gmail.com
suparnojitsarkar@gmail.com
ppiyush0005@gmail.com

搜集汇总

数据集介绍

构建方式

IndicMedDialog的构建融合了模板驱动与合成生成两种策略。研究者以MDDial英文多轮鉴别诊断对话语料库为基础，利用Llama-3.3-70B-Versatile模型，基于12种疾病类别与118种症状生成1101段合成咨询对话，以增强对话的多样性与自然度。随后，采用TranslateGemma模型将全部英文对话翻译为阿萨姆语、孟加拉语、古吉拉特语、印地语、马拉地语、旁遮普语、泰米尔语、泰卢固语和乌尔都语等九种印度语言。为确保翻译质量，每语种均邀请两位母语者独立评分，并设计脚本感知的后处理管线，以修正自动翻译中产生的语音、词汇及字符间距错误，最终形成包含2980个平行多轮对话的多语种语料库。

使用方法

使用IndicMedDialog时，研究者可将其作为多轮医疗对话模型的训练与评估基准。数据集以JSON格式提供，每条样本包含按顺序排列的医患对话轮次及最终诊断标签。建议采用ShareGPT风格的指令格式进行微调，将患者话语映射为human轮次、医生话语映射为gpt轮次，并前置系统消息设定诊断会话背景。由于模型输出常以自然语言包裹诊断结果，评估时推荐采用基于大语言模型评审者的语义等价性分类方法，而非简单的精确标签匹配，以更准确地衡量真实诊断能力。该数据集适合用于参数高效微调（如LoRA）及跨语言零样本评估研究。

背景与挑战

背景概述

在医疗资源匮乏的地区，对话式人工智能在初步症状评估与医疗指导方面展现出巨大潜力。然而，现有医疗对话系统多局限于单轮问答范式或基于模板的数据集，缺乏多轮交互的真实性，尤其是面向印度次大陆的十余种语言时，多语言平行医疗对话资源的缺失成为制约医疗可及性的关键瓶颈。为此，Shubham Kumar Nigam等研究人员于2026年创建了IndicMedDialog数据集，该数据集以MDDial为基础，通过大型语言模型生成合成问诊对话，借助TranslateGemma进行九种印度语言的平行翻译，并由母语者验证与脚本感知后处理流水线修正翻译错误，最终构建了涵盖英语及阿萨姆语、孟加拉语、古吉拉特语等共十种语言的平行多轮医疗对话语料。该数据集首次系统性地填补了低资源印度语言临床自然语言处理领域的空白，为构建面向多元化语言社区的医疗对话系统奠定了关键数据基础。

当前挑战

该数据集面临的核心挑战在于多语言环境下的领域适配与构建质量保障。领域层面，现有医疗对话系统大多基于单轮问答或模板驱动范式，无法模拟真实临床诊断中通过多轮追问逐步缩小鉴别诊断范围的动态过程，且英语主导的数据集难以服务于广泛使用印度语言的15亿人口。构建过程中，自动翻译引入了语音不一致、词汇不准确及字符间距错误等系统性缺陷，需通过母语者评估与脚本感知后处理流水线进行修正；此外，合成对话与真实医患交互之间存在分布差异，12种疾病覆盖面的局限性也制约了模型的泛化能力。更棘手的是，低资源语言（如阿萨姆语、泰米尔语）因基础模型分词器对相应Unicode字符集的覆盖不足，导致生成质量极差，部分疾病（如创伤性脑损伤）在这些语言中的诊断精度降至百分之零，直接威胁患者安全。

常用场景

经典使用场景

在低资源语言医疗对话系统中，IndicMedDialog 被广泛用作多轮、并行医疗对话数据集的标杆，支撑研究者探索面向印度次大陆九种本土语言的临床交互建模。其核心价值在于突破了传统单轮问答或模板驱动的局限，为模拟真实医患之间的渐进式症状收集与鉴别诊断提供了结构化、多语言对齐的语料基础，尤其适用于训练能够理解与生成跨脚本、跨文化医疗内容的对话代理。

解决学术问题

该数据集填补了多语言、多轮医疗对话资源在印地语系中的系统性空白，有效应对了现有数据集语言覆盖单一、交互形式僵化的问题。通过引入患者预上下文（年龄、性别、过敏史）与并行翻译质量保障机制，IndicMedDialog 为研究低资源场景下指令漂移、标签坍缩、跨领域混淆等关键失败模式提供了实证基础，推动了多语言医疗自然语言处理中语义等价评估与临床安全验证的方法论进步。

实际应用

在实际医疗场景中，IndicMedDialog 驱动的模型可部署于远程问诊平台与社区健康助手，为超过十五亿印地语使用者提供初步症状评估与分诊建议。特别在医疗资源匮乏的农村或边缘地区，系统能够以患者母语进行多轮病史采集，降低语言障碍引发的误诊风险，提升初级卫生保健的可及性与效率。其轻量化参数高效微调策略亦使得模型能够在低成本硬件上运行，适配基层医疗机构的计算条件。

数据集最近研究