BanglaMedQA and BanglaMMedBench

Name: BanglaMedQA and BanglaMMedBench
Creator: 伊斯兰技术大学计算机科学与工程系
Published: 2025-11-07 01:15:33
License: 暂无描述

arXiv2025-11-07 更新2025-11-08 收录

下载链接：

https://edqa.org

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaMedQA和BanglaMMedBench是首个大规模的孟加拉语生物医学多项选择题(MCQ)数据集，旨在评估医疗人工智能(AI)中的推理和检索能力。这两个数据集总共包含2000个问题，BanglaMedQA包含1000个来自孟加拉国医学院入学考试的真实问题，每个问题都附有正确答案的推理。BanglaMMedBench则包括另外1000个情境和复杂问题，这些问题是通过对英语MMedBench数据集进行翻译和精炼得到的。数据集的创建过程包括从孟加拉国医学院入学考试中收集问题，并进行筛选以确保质量和一致性。BanglaMMedBench的创建则涉及将英语数据集翻译成孟加拉语，并进行必要的预处理。这些数据集的应用领域是评估检索增强生成(RAG)策略的有效性，并为孟加拉语医疗问答系统的发展奠定基础。

BanglaMedQA and BanglaMMedBench are the first large-scale Bengali biomedical multiple-choice question (MCQ) datasets designed to evaluate reasoning and retrieval capabilities in medical artificial intelligence (AI). Collectively, these two datasets contain 2,000 questions in total. BanglaMedQA includes 1,000 real questions from Bangladesh's medical college admission tests, each accompanied by the reasoning for the correct answer. BanglaMMedBench, on the other hand, encompasses another 1,000 contextual and complex questions that were developed by translating and refining the English MMedBench dataset. The creation of BanglaMedQA involved collecting questions from Bangladesh's medical college admission tests and filtering them to ensure quality and consistency. For BanglaMMedBench, the creation process included translating the English dataset into Bengali and performing necessary preprocessing. These datasets can be used to evaluate the effectiveness of retrieval-augmented generation (RAG) strategies and lay a solid foundation for the development of Bengali medical question answering systems.

提供机构：

伊斯兰技术大学计算机科学与工程系

创建时间：

2025-11-07

搜集汇总

数据集介绍

构建方式

在低资源语言生物医学问答系统开发领域，BanglaMedQA与BanglaMMedBench的构建采用了多源融合策略。BanglaMedQA源自孟加拉国医学入学考试真题，通过历时34年的试题收集与严格筛选，最终保留1000道高质量选择题，每道题目均附带标准答案与解析。其构建过程包含去重处理、模糊题目剔除及选项格式标准化，确保数据集的权威性与一致性。BanglaMMedBench则通过Gemini-1.5-Flash模型对英文医学基准MMedBench进行专业翻译，结合医学专家校验与格式对齐，形成包含情境推理题的千题数据集，有效填补了孟加拉语临床推理数据的空白。

使用方法

该数据集支持多层次评估框架的应用实践。研究者可基于本地检索策略，将问题与教材语料库进行向量相似度匹配，实现传统RAG流程的验证。针对复杂临床场景，可采用代理型RAG动态选择检索源，结合网络搜索与零样本生成策略。迭代反馈机制允许模型通过关键词重构实现多轮推理优化，而聚合检索则通过多尺度上下文投票提升预测稳定性。评估阶段需综合准确率、BERTScore等指标，同时关注生成解析的语义连贯性，最终形成对模型医学推理能力与知识溯源效果的系统化评测。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，医疗问答系统在低资源语言中的发展仍面临严峻挑战。BanglaMedQA与BanglaMMedBench作为首个大规模孟加拉语生物医学多选题数据集，由伊斯兰理工大学计算机科学与工程系研究团队于2025年创建，旨在解决孟加拉语医疗知识获取不平等问题。该数据集整合了孟加拉国医学入学考试真题与国际标准化试题的翻译版本，通过光学字符识别技术构建教材知识库，为评估检索增强生成策略提供了重要基准，显著推动了南亚地区医疗人工智能的本土化发展。

当前挑战

该数据集致力于解决低资源语言生物医学问答的领域挑战，包括专业术语的多义性解析、临床情境的跨语言推理以及医学知识的动态更新需求。在构建过程中，研究团队面临孟加拉语复合字符的OCR识别误差、医学试题的语义保真翻译、多源数据去重与标准化等关键技术难题，同时需平衡检索精度与生成质量之间的矛盾，确保问答系统在有限语料下的鲁棒性与可解释性。

常用场景

经典使用场景

在孟加拉语生物医学问答研究领域，BanglaMedQA和BanglaMMedBench数据集为评估检索增强生成策略提供了标准化测试平台。这些数据集通过包含2000道选择题的规模设计，特别适用于验证多模态检索与生成模型在低资源语言环境下的性能表现。研究者在构建医疗人工智能系统时，通常利用该数据集对传统RAG、零样本回退、智能体RAG等五种策略进行系统性比较，从而优化模型在复杂医学场景中的推理能力。

解决学术问题

该数据集有效解决了低资源语言医学问答系统开发中的核心难题。通过构建首个大规模孟加拉语医学选择题数据集，填补了该语言在专业领域数据稀缺的空白，为跨语言医学人工智能研究提供了重要基础设施。其独特价值在于将教科书知识库与网络检索相结合，显著提升了模型在专业术语理解和临床推理方面的准确性，为多语言医疗知识普及奠定了技术基础。

实际应用

在实际医疗教育场景中，该数据集支撑的智能问答系统可为孟加拉语地区的医学生提供个性化学习辅助。通过集成本地化教材与动态知识检索，系统能够生成符合地区医学课程标准的解释性答案，有效辅助临床决策训练。在远程医疗咨询场景中，这类技术可帮助基层医护人员快速获取权威医学知识，改善医疗资源分布不均的现状。

数据集最近研究