VIMMCQA

github2025-02-06 更新2025-03-04 收录

下载链接：

https://github.com/UIT-HuyTanNhiPhuong/VIMMCQA

下载链接

链接失效反馈

官方服务：

资源简介：

VIMMCQA数据集是一个越南医学多项选择题问答数据集，旨在用于医学机器阅读理解（MRC）和特定领域自然语言处理（NLP）的研究。

The VIMMCQA Dataset is a Vietnamese medical multiple-choice question answering dataset, aimed at supporting research in medical machine reading comprehension (MRC) and domain-specific natural language processing (NLP).

创建时间：

2025-02-06

原始信息汇总

VIMMCQA: 越南医学多选题问答数据集概述

数据集简介

名称: VIMMCQA (Vietnamese Medical Multiple-Choice Question Answering Dataset)
用途: 用于医学机器阅读理解(MRC)和领域特定自然语言处理(NLP)研究
特点: 提供复杂的现实医学问题，需要推理和基于证据的决策

数据集规模

总样本量: 10,601个问答对
- 训练集: 9,020个样本
- 开发集: 799个样本
- 测试集: 800个样本

配套医学语料库

医学文章: 8,153篇专家验证的医学文章
疾病覆盖: 689种独特疾病，涵盖多个专科
问题类型: 多轮、上下文丰富的医学问题

数据格式

格式: JSON
结构: json { "id": "唯一问题ID", "disease": "疾病描述", "info": "疾病背景信息", "question": "医学问题", "options": { "A": "选项A", "B": "选项B", "C": "选项C", "D": "选项D" }, "answer": ["正确答案"], "evidence": { "A": "选项A的证据", "B": "选项B的证据", "C": "选项C的证据", "D": "选项D的证据" } }

数据集特征

领域特定: 专注于越南医学问答
多选题格式: 包含单选和多选问题
专家标注证据: 每个问题都有专家验证的医学解释
结构化JSON格式: 便于NLP模型集成
多样化医学主题: 涵盖689种疾病

基准测试结果

最佳模型: Qwen-2
准确率: 72.88%(精确匹配)

引用信息

bibtex @article{nguyen2024VIMMCQA, title={VIMMCQA: A Vietnamese Medical Multiple-Choice Question Answering Dataset}, author={Nhi Ngoc-Yen Nguyen, Phuong Dieu Nguyen, Tan Nhat Do, Huy Le Tu, Khanh Quoc Tran, Kiet Van Nguyen}, journal={[Journal Name]}, year={2024}, url={#}, abstract={越南机器阅读理解或问答任务，特别是在需要专业领域知识推理的医学信息方面仍然研究不足。} }

许可信息

许可证: 知识共享署名-非商业性使用-相同方式共享4.0国际许可协议
研究用途: 允许非商业研究
商业用途: 不允许
修改要求: 任何衍生数据集必须使用相同许可协议共享

联系方式

主要联系人:
- Nhi Ngoc-Yen Nguyen: 21521231@gm.uit.edu.vn
- Phuong Dieu Nguyen: 21520091@gm.uit.edu.vn
- Tan Nhat Do: 21522575@gm.uit.edu.vn
- Huy Le Tu: 21522173@gm.uit.edu.vn
- Khanh Quoc Tran: khanhtq@uit.edu.vn
- Kiet Van Nguyen: kietnv@uit.edu.vn

搜集汇总

数据集介绍

构建方式

VIMMCQA数据集的构建，以越南医学领域为背景，包含10,601个问题-答案对，每个对均由专家标注的证据支持。该数据集旨在助力医学机器阅读理解及特定领域自然语言处理任务的研究，其构建方法涉及对医学文献的深度理解及问题答案的精心设计。

特点

VIMMCQA数据集的特点在于其针对越南医学问答任务的领域特异性，采用选择题格式，并配备专家审核的医疗解释证据。数据集涵盖689种不同医学专业的疾病，以结构化的JSON格式呈现，便于与自然语言处理模型集成。

使用方法

使用VIMMCQA数据集时，研究者可依据其提供的JSON格式数据，通过两阶段检索器-阅读器框架来评估模型性能。第一阶段使用BM25和密集检索从语料库中提取相关段落，第二阶段微调大型语言模型处理检索到的证据并生成答案。

背景与挑战

背景概述

VIMMCQA数据集，旨在推动医学机器阅读理解（MRC）和特定领域自然语言处理（NLP）的研究，是首个针对越南语医学领域的多选题问答数据集。该数据集由越南信息大学的研究团队于2024年创建，包含10601个问题-答案对，每个问题都附有专家验证的证据。VIMMCQA数据集的构建，不仅丰富了医学信息处理的资源库，也为低资源语言医学问答研究提供了新的视角和工具，对促进医学信息学的跨语言研究具有重要的学术价值。

当前挑战

VIMMCQA数据集在构建和应用过程中面临诸多挑战。首先，医学领域的复杂性要求数据集必须涵盖广泛的疾病和专业知识，这对数据收集和标注提出了高要求。其次，多选题问答任务需要模型具备推理和证据决策能力，这在技术实现上是一大难点。此外，数据集的多样性和准确性对于模型训练至关重要，如何确保数据质量也是当前面临的挑战之一。最后，针对越南语这一低资源语言，如何有效利用有限的语料资源，提高模型的泛化能力，是该数据集应用过程中的关键问题。

常用场景

经典使用场景

在医学自然语言处理领域，VIMMCQA数据集的经典使用场景在于为机器阅读理解模型提供训练和评估的基础，特别是在处理需要推理和基于证据的决策制定方面的医学问题。该数据集通过多轮、上下文丰富的医疗问题，助力模型更好地理解和处理专业医疗知识。

实际应用

实际应用中，VIMMCQA数据集可用于构建和优化医疗辅助系统，例如智能问答机器人，为医疗专业人员提供快速准确的医学信息查询服务，提高医疗诊断和治疗的效率。

衍生相关工作

基于VIMMCQA数据集，研究者可以开展一系列衍生工作，如开发针对特定疾病的诊断模型，或是构建更为复杂的医疗信息推理系统。此外，该数据集也促进了跨学科的研究，如将医疗信息学与自然语言处理技术相结合，以探索医疗数据的深层次价值和应用潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集