ekacare/indian_drug_mcqa

Name: ekacare/indian_drug_mcqa
Creator: ekacare
Published: 2026-05-05 12:05:19
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ekacare/indian_drug_mcqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多项选择问答数据集，用于评估对印度品牌药物的知识，特别是从品牌名称识别通用名称或盐成分的能力。数据集包含1512个问题，涵盖20多个治疗类别的印度药品品牌名称。每个问题提供一个品牌药物，并要求从3-5个选项中选择正确的通用成分。此外，数据集还包括针对高难度药物的变体问题，使用不同的干扰策略和措辞风格以提高评估的鲁棒性。

This dataset is a multiple-choice question answering (MCQA) dataset dedicated to evaluating knowledge of Indian branded pharmaceuticals, specifically the ability to identify their generic names or salt constituents from their corresponding brand names. It comprises 1,512 questions covering Indian pharmaceutical brand names across more than 20 therapeutic categories. Each question presents a branded drug and requires respondents to select the correct generic ingredient from 3 to 5 options. Additionally, the dataset includes variant questions for high-difficulty medications, which adopt diverse distractor strategies and wording styles to enhance the robustness of the evaluation.

提供机构：

ekacare

搜集汇总

数据集介绍

构建方式

该数据集围绕印度药品市场中品牌药物与通用名之间的映射关系进行构建，通过系统性地收集20余个治疗类别的印度品牌药物信息，为每种药物设计多选题，要求模型从3至5个选项中甄别出正确的盐成分或通用名称。为增强评估的鲁棒性，针对难度较高的药物，采用多种干扰项策略与句式风格生成变体题目，最终形成包含1512道题目的测试集。

特点

数据集具备多样化的题目结构，每条记录涵盖药物名称、通用名、治疗类别、药理作用类别等丰富属性，并标注了题干格式、措辞风格、干扰项策略及难度等级等元信息，便于进行细粒度的性能分析。题目选项数量在4至5个之间浮动，增加了评估的灵活性。数据集专注于印度品牌药物知识，弥补了该类领域评估资源的稀缺性。

使用方法

用户可通过HuggingFace Datasets库直接加载数据集，指定split为'test'即可获取全部试题。推荐采用精确匹配（Exact Match）评估模型预测的答案字母（A-E）与标准答案的一致性。此外，数据集已集成至KARMA评估框架，支持通过命令行工具直接调用，便于对医学语言模型进行标准化评测。

背景与挑战

背景概述

在药学智能化进程中，医学语言模型对特定区域药物知识的掌握程度直接影响其临床应用的可靠性。印度作为全球仿制药生产大国，其品牌药与通用名之间的映射关系复杂且具有高度的地域特异性，构成自然语言处理领域一个亟待深化的评估维度。由印度医疗科技机构Eka.Care于2025年创建的Indian Drug MCQA数据集，聚焦于印度品牌药物的通用名识别任务，包含1512道多选题，覆盖20余个治疗类别。该数据集通过多样化干扰策略与提问风格设计，系统性地评估模型在印度药品市场知识上的表现，为医疗领域大语言模型的区域化能力验证提供了重要的基准资源。

当前挑战

该数据集所应对的领域核心挑战在于医学语言模型对区域药品知识体系的认知盲区。与传统英文通用药品名称识别不同，印度品牌药物命名体系包含大量本土化特征，如品牌名与盐组成的非对应关系、多种治疗类别间相似名称的混淆风险，以及不同制造商对同一通用名药物使用不同品牌名的现象。在数据集构建过程中，挑战聚焦于如何高效收集和验证成千上万种品牌药与通用名的真实映射关系，设计具有临床区分度的干扰选项以防止模型通过表面词汇匹配作答，同时确保题目难度的合理分布以准确反映模型的能力边界。

常用场景

经典使用场景

在医药自然语言处理领域，印度药品多选题问答数据集（Indian Drug MCQA）被广泛用于评估和微调医学语言模型对印度本土品牌药物知识的掌握程度。该数据集包含1512道精心设计的题目，覆盖20余个治疗类别，要求模型从多个选项中准确识别品牌药物对应的通用名或盐成分。其经典使用场景聚焦于品牌名到通用名的映射能力测试，通过设置不同难度层级和干扰项策略，系统性地检验模型在药理学知识检索与推理方面的表现，成为衡量模型在印度医药市场专业素养的重要基准。

实际应用

在实际应用层面，该数据集展现出了显著的行业价值。印度制药市场中品牌药物占据主导地位，医疗从业人员、药师及患者在日常场景中频繁面临品牌名与通用名之间的转换需求。基于此数据集训练的模型可集成至临床决策支持系统、药房管理软件和患者用药指导应用中，帮助用户快速从熟悉的品牌名称追溯其有效成分，防范因同药异名引发的重复用药或药物相互作用风险。此外，该数据集还可用于开发面向印度医药代表的培训工具及药学科普问答机器人。

衍生相关工作

此数据集的诞生催生了一系列富有意义的衍生研究工作。在模型评估层面，研究者将其与KARMA评估框架深度集成，形成了标准化的医学知识评估流程。在数据扩增方向，基于该数据集的结构化特征——如难度层级、干扰策略和措辞风格——衍生出多种难度可调的评估变体。在方法论领域，学者们借鉴其品牌-通用名映射的思想，探索了跨语言药物名识别、多源药品知识融合及基于干扰项生成的对抗性评估方法，为构建更具鲁棒性的医学语言模型提供了新的研究路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集