IMB-QA, IMB-MCQA

Name: IMB-QA, IMB-MCQA
Creator: University of Naples Federico II, Department of Electrical Engineering and Information Technology (DIETI), Italy and Consorzio Interuniversitario Nazionale per l'Informatica (CINI)-ITEM National Lab, Naples, Italy
Published: 2025-10-21 17:45:59
License: 暂无描述

arXiv2025-10-21 更新2025-10-25 收录

下载链接：

https://github.com/PRAISELab-PicusLab/IMB

下载链接

链接失效反馈

官方服务：

资源简介：

IMB数据集由两个子集组成：IMB-QA，包含从意大利在线医疗论坛MedicItalia和Dica33收集的782,644个医患对话，跨越77个医疗类别；IMB-MCQA包含从医学专业入学考试模拟器CompitoInClasse.org收集的25,862个多项选择题。这些数据集通过使用大型语言模型（LLM）进行数据清理和匿名化，以提高数据质量和隐私保护。IMB数据集旨在支持多语言医疗问答的研究，并为评估不同类型医疗沟通中的模型性能提供独特的机遇。

提供机构：

University of Naples Federico II, Department of Electrical Engineering and Information Technology (DIETI), Italy and Consorzio Interuniversitario Nazionale per l'Informatica (CINI)-ITEM National Lab, Naples, Italy

创建时间：

2025-10-21

搜集汇总

数据集介绍

构建方式

在医疗自然语言处理领域，构建高质量数据集需兼顾真实性与规范性。IMB-QA通过自动化采集意大利医疗论坛MedicItalia和Dica33的公开医患对话，采用大语言模型Llama3-Med42-8B对专业回复进行语义保留的语法规范化与匿名化处理，结合意大利语命名实体识别模型精准脱敏，最终形成涵盖77个医学类别、78万余条问答的语料库。IMB-MCQA则系统整合意大利医学专科考试模拟平台的2.5万余道选择题，通过结构化提取确保题目与标准答案的权威性。

使用方法

研究者可基于该数据集开展多维度实验探索。对于开放域问答任务，可采用检索增强生成技术构建医疗知识检索库，通过语义向量匹配增强模型应答的准确性；在多选题评测场景中，可直接利用题目选项与标准答案进行模型推理能力评估。领域自适应方面，支持通过课程学习策略对轻量化语言模型进行医学专业微调，实验表明该方法能显著提升模型在意大利语医疗文本上的语义理解精度。数据集配套提供的多语言评估框架与预处理流程，可有效支撑跨语言医疗问答系统的对比研究。

背景与挑战

背景概述

随着互联网医疗论坛的兴起，患者与医疗专业人士之间的互动积累了海量非结构化医学知识，然而这些数据的口语化特征与语言复杂性对自然语言处理系统提出了严峻挑战。意大利医学基准数据集IMB由那不勒斯费德里科二世大学与CINI-ITEM国家实验室联合团队于2024年创建，包含IMB-QA与IMB-MCQA两个子集，分别收录78万条医患对话和2.5万道多选题。该数据集填补了意大利语医学问答资源的空白，通过大语言模型技术提升数据质量，为多语言医疗人工智能系统开发提供了重要基础设施。

当前挑战

在领域问题层面，该数据集需解决医疗论坛中口语化表达与专业术语交织的语言理解难题，以及从非正式对话中提取精准医学知识的语义解析挑战。构建过程中面临多重障碍：原始数据存在个人信息泄露风险，需通过NER模型与LLM技术实现有效匿名化；医患对话存在信息冗余与语境模糊性，需采用多阶段预处理流程确保数据质量；医疗专科分布不均衡导致模型训练偏差，需通过主题建模技术优化类别表征。这些挑战共同构成了开发高精度意大利语医疗问答系统的核心瓶颈。

常用场景

经典使用场景

在医疗自然语言处理领域，IMB-QA和IMB-MCQA数据集为意大利语医疗问答系统的开发与评估提供了关键支撑。其经典应用场景聚焦于测试大型语言模型对非结构化医患对话的语义理解能力，特别是在处理涉及神经科、胃肠病学等77个专科领域的复杂临床咨询时，模型需从 colloquial 表达中提取核心医疗意图，并通过多轮对话逻辑还原真实诊疗场景的推理过程。

解决学术问题

该数据集有效解决了非英语医疗文本中语义噪声与专业术语混杂的解析难题，填补了意大利语临床自然语言处理资源的空白。通过引入检索增强生成与领域自适应微调策略，显著提升了模型对非正式医疗咨询的意图识别准确率，为跨语言医疗知识迁移、低资源语言临床决策支持等研究方向提供了可复现的实验基准。

实际应用

在实际医疗场景中，该数据集支撑的问答系统可部署于在线医疗平台，为意大利语用户提供症状自诊建议与专科导引服务。其多类别临床问题架构尤其适用于构建区域化智能分诊系统，通过解析患者描述的疼痛特征与病史细节，辅助基层医疗机构实现精准转诊，同时为医学教育机构提供本土化临床思维训练素材。

数据集最近研究