DISPLACE-M数据集
收藏arXiv2026-03-05 更新2026-03-07 收录
下载链接:
https://www.codabench.org/competitions/13833/?secret_key=1b714e64-0f0d-4e0f-8a3c-be9b3d10f00c#
下载链接
链接失效反馈官方服务:
资源简介:
DISPLACE-M是由印度多机构联合构建的医疗对话数据集,包含55小时印地语真实场景下非医师健康工作者与患者的自然对话,涵盖妇女健康、急性感染等四大主题。数据采集自印度农村地区,采用移动设备远场麦克风录制,包含多方言混合及环境噪声。数据集经过多阶段人工标注,支持说话人分离、语音识别等四项任务,旨在推动面向基层医疗的对话式AI研究。
DISPLACE-M is a medical dialogue dataset jointly constructed by multiple Indian institutions. It contains 55 hours of natural Hindi dialogues between non-physician healthcare workers and patients in real-world scenarios, covering four major topics including women's health and acute infections. The data was collected from rural areas of India, recorded using far-field microphones on mobile devices, and includes mixed multi-dialect speech and environmental noise. The dataset has undergone multi-stage manual annotation, supports four tasks such as speaker diarization and speech recognition, and aims to advance conversational AI research targeting primary healthcare.
提供机构:
印度科学研究所·LEAP实验室; 卡纳塔克邦国立理工学院; Josh Talks; TANUH AI卓越中心; 印度石油与能源大学; 印度理工学院孟买分校
创建时间:
2026-03-03
搜集汇总
数据集介绍

构建方式
在医疗对话理解领域,构建真实场景下的语音数据集对于推动社区医疗对话系统的发展至关重要。DISPLACE-M数据集的构建过程体现了对现实世界医疗交互复杂性的深入捕捉。该数据集通过实地部署在印度哈里亚纳邦和比哈尔邦的农村与半城市地区,由80名社区健康工作者在20个行政区块的10个区域内收集了约55小时的医疗对话语音。录音环境涵盖了初级卫生中心、安甘瓦迪中心、家庭访视及社区外展等多种真实医疗场景,确保了数据的自然性与多样性。所有音频均使用移动设备远场麦克风录制,格式为16位PCM、16kHz采样率的WAV文件,并经过多阶段人工标注流程,包括分段、转录及质量保证,以确保时间标记的准确性与转录文本的正确性。
特点
面向前沿医疗对话的语音处理研究,DISPLACE-M数据集展现出多方面的显著特点。该数据集专注于印地语医疗对话,同时包含代码切换至印度英语及大量地区方言(如哈里亚尼语、博杰普尔语和玛迦希语),真实反映了社区医疗实践中的语言多样性。对话内容涉及一般健康症状、妇女健康、急性感染及预防保健等多个医疗主题,且语音具有自发性、噪声干扰和说话人重叠等自然对话特征。数据集的独特之处在于其提供了针对说话人日志、自动语音识别、主题识别和对话摘要四个互联任务的统一评估框架,并包含开发集与盲评集,支持从语音处理到高层对话理解的端到端系统评测。
使用方法
为促进医疗对话理解系统的可重复研究与一致评估,DISPLACE-M数据集提供了明确的使用框架。研究者可利用该数据集参与开放的排行榜式挑战,在四个既定任务上开发和评估系统:说话人日志任务旨在分割音频中的说话人同质区域,使用日志错误率进行评估;自动语音识别任务需生成带时间标记的多说话人转录,通过时间约束最小置换词错误率衡量性能;主题识别任务要求提取对话中讨论的医疗主题,采用ROUGE-1和ROUGE-L指标;对话摘要任务则需生成保留关键医疗背景的简洁摘要,以ROUGE-L评分。数据集附带了基于级联方法的基线系统,包括DiariZen模型、IndicConformer和Whisper-large-v3等,支持零样本推理和监督微调,为系统开发提供了起点。参与者需按照特定格式提交输出,以便在开放排行榜上进行自动化评估。
背景与挑战
背景概述
在医疗健康领域,面向社区前线的对话式人工智能系统具有提升公共卫生服务效率的潜力,然而现有语音数据集多采集于医院等受控环境,且以英语为主,难以支撑真实、多语言场景下的系统研发。为此,印度科学院的LEAP实验室联合多家机构,于2026年推出了DISPLACE-M数据集,该数据集聚焦于印地语社区医疗工作者与就医者之间的自发、嘈杂且多说话人交互的对话,旨在为说话人日志、自动语音识别、主题识别与对话摘要等任务提供统一的评测基准,推动面向低资源语言与真实医疗场景的对话理解研究。
当前挑战
DISPLACE-M数据集致力于解决前线医疗对话理解中的核心挑战:在自发、重叠且带有口音与代码转换的语音中,实现高精度的说话人分离与语音识别,并进一步完成医学主题提取与对话摘要生成。数据构建过程同样面临诸多困难:在田野采集时需克服环境噪音、隐私保护与参与者信任建立等实际问题;标注阶段则需处理多方言混合、医学术语准确转录以及长对话的结构化标注等复杂性,确保数据质量与伦理合规性。
常用场景
经典使用场景
在医疗对话处理领域,DISPLACE-M数据集为前沿健康工作者与就医者之间的多语言、多说话人对话提供了基准评估平台。该数据集的核心应用场景在于构建端到端的对话理解系统,通过集成说话人日志、自动语音识别、主题识别和对话摘要四个任务,系统化地评估模型在真实嘈杂环境中的表现。研究人员利用这一数据集,能够深入探索自发式、代码混合的印地语医疗对话,推动面向低资源语言的医疗语音技术发展。
实际应用
在实际应用中,DISPLACE-M数据集支持开发面向社区医疗的智能辅助工具。这些工具能够自动转录和总结健康工作者与患者之间的对话,帮助生成结构化的医疗记录,减轻基层医疗工作者的文书负担。此外,基于该数据集训练的系统可用于远程医疗监测、疾病筛查和公共卫生数据分析,提升医疗服务的可及性和效率,尤其在资源有限的农村和半城市地区具有重要价值。
衍生相关工作
围绕DISPLACE-M数据集,已衍生出一系列经典研究工作。例如,基于DiariZen模型的说话人日志系统在零样本和微调设置下进行了优化,而IndicConformer和Whisper-large-v3等语音识别模型通过领域适应显著提升了性能。在高级任务中,研究人员结合LLM(如MedGemma和Llama)进行主题识别与摘要生成,探索了端到端音频理解与多模态推理方法,推动了医疗对话处理技术的创新与迭代。
以上内容由遇见数据集搜集并总结生成



