Cancer-related Multiple-choice Medical QA Dataset (CMMQA)

Name: Cancer-related Multiple-choice Medical QA Dataset (CMMQA)
Creator: 墨尔本大学计算与信息系统学院
Published: 2024-12-19 19:30:07
License: 暂无描述

arXiv2024-12-19 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.14751v1

下载链接

链接失效反馈

官方服务：

资源简介：

CMMQA数据集是由墨尔本大学计算与信息系统学院创建的，专门用于癌症相关问答任务的多项选择医学问答数据集。该数据集通过应用MeSH术语过滤器从现有的生物医学问答数据集中提取了520个与癌症相关的问题，确保了数据集的全面性和针对性。数据集的创建过程包括对多个广泛使用的医学问答数据集进行筛选和整合，旨在评估和优化癌症患者问答系统的性能。该数据集主要应用于生物医学计算领域，旨在提高癌症相关问答系统的准确性和可靠性，解决医疗信息处理中的关键问题。

The CMMQA dataset was developed by the School of Computing and Information Systems at the University of Melbourne, and it is a multiple-choice medical question answering dataset dedicated to cancer-related question answering tasks. It extracts 520 cancer-related questions from existing biomedical question answering datasets using MeSH term filters, ensuring the dataset is both comprehensive and targeted. The dataset creation process entails screening and integrating multiple widely adopted medical question answering datasets, with the goal of evaluating and optimizing the performance of question answering systems for cancer patients. This dataset is primarily applied in the field of biomedical computing, aiming to improve the accuracy and reliability of cancer-related question answering systems and address key issues in medical information processing.

提供机构：

墨尔本大学计算与信息系统学院

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

Cancer-related Multiple-choice Medical QA Dataset (CMMQA) 的构建基于对现有生物医学问答数据集的筛选和优化。研究团队通过应用医学主题词（MeSH）过滤器，从六个广泛使用的医学问答数据集中提取与癌症相关的问题，确保数据集的全面性和针对性。具体而言，团队使用了包括MedQA-US、MedMCQA、MMLU-Med、BioASQ、PubMedQA和HealthSearchQA在内的数据集，并通过MeSH子树中的‘neoplasm’相关术语及其同义词进行筛选，最终生成了包含520个问题的癌症相关多选问答数据集。这种构建方式不仅确保了数据集的专业性和准确性，还简化了评估过程，避免了文本相似性计算或人工标注带来的偏差。

特点

CMMQA数据集的特点在于其专注于癌症相关的医学问答，涵盖了广泛的癌症类型和临床场景。数据集中的问题形式为多项选择题，简化了评估过程，并减少了因文本相似性计算或人工标注带来的偏差。此外，数据集通过MeSH术语筛选确保了问题的专业性和准确性，涵盖了从基础研究到临床应用的多个层面。CMMQA还特别关注了问题的长度和复杂性，使其能够有效评估不同检索方法在处理长问题和复杂问题时的表现。这种设计使得CMMQA成为评估癌症患者问答系统性能的理想工具。

使用方法

CMMQA数据集的使用方法主要围绕癌症患者问答系统的评估和优化展开。研究人员可以通过该数据集测试不同的检索增强生成（RAG）方法，评估其在癌症相关问答中的表现。具体而言，数据集可用于优化查询管道的各个组件，包括文档检索、段落检索和语义表示。通过对比不同检索方法（如基于PubMed和PubMed Central的混合语义实时文档检索）和文本分割技术（如语义增强重叠分割SEOS），研究人员可以识别出最优的知识来源和检索策略。此外，CMMQA还可用于评估大型语言模型（如Claude-3-haiku）在癌症问答任务中的准确性和可靠性，帮助开发更精确和可靠的癌症患者问答系统。

背景与挑战

背景概述

Cancer-related Multiple-choice Medical QA Dataset (CMMQA) 是由墨尔本大学的研究团队于2024年开发的一个专注于癌症相关医学问答的数据集。该数据集的创建旨在优化基于检索增强生成（RAG）的癌症患者问答系统（CPQA），通过结合PubMed和PubMed Central等公共生物医学数据库，提升大语言模型（LLMs）在癌症相关问答任务中的准确性和可靠性。CMMQA数据集的核心研究问题是如何通过优化查询管道，减少LLMs在生成答案时的幻觉现象，并提高其在知识密集型任务中的表现。该数据集的推出为生物医学领域的研究人员和医疗从业者提供了一个重要的工具，推动了基于RAG的生物医学系统的发展。

当前挑战

CMMQA数据集在构建和应用过程中面临多重挑战。首先，癌症相关的医学问答任务具有高度的知识密集性，要求系统能够从海量的生物医学文献中快速检索出相关信息，并生成准确、可靠的答案。然而，LLMs在处理此类任务时容易产生幻觉现象，即生成流畅但不准确或无意义的回答。其次，数据集的构建过程中，研究人员需要克服文献检索的复杂性，包括如何有效利用NCBI资源（如PubMed和PubMed Central）进行文档检索，并优化检索管道的各个组件，如文档检索、段落检索和语义表示。此外，如何确保检索结果的实时性和相关性，尤其是在面对不断更新的生物医学文献时，也是一个重要的挑战。最后，数据集的评估依赖于多选问答形式，这可能忽略一些细微的细节，并容易受到猜测偏差的影响，限制了其在复杂医学问题中的应用。

常用场景

经典使用场景

CMMQA数据集在癌症相关医学问答系统中扮演了关键角色，尤其是在基于检索增强生成（RAG）的系统中。通过结合PubMed和PubMed Central等生物医学数据库，该数据集被用于优化查询管道，提升大型语言模型（LLMs）在癌症患者问答任务中的准确性和可靠性。其经典使用场景包括文档检索、段落检索和语义表示的优化，特别是在处理复杂的癌症相关问题时，能够显著提高答案的生成质量。

解决学术问题

CMMQA数据集解决了癌症相关医学问答系统中的多个学术研究问题。首先，它通过引入混合语义实时文档检索（HSRDR）和语义增强重叠分割（SEOS）等技术，显著减少了LLMs在生成答案时的幻觉现象。其次，该数据集通过优化查询管道中的各个组件，如文档检索、段落检索和语义表示，提升了系统在知识密集型任务中的表现。这些优化不仅提高了答案的准确性，还为构建更可靠的医学问答系统提供了理论支持。

衍生相关工作

CMMQA数据集衍生了许多相关的研究工作，特别是在检索增强生成（RAG）和医学问答系统领域。基于该数据集的研究提出了混合语义实时文档检索（HSRDR）和语义增强重叠分割（SEOS）等创新方法，这些方法已被广泛应用于其他生物医学问答系统的开发中。此外，该数据集还为优化LLMs在医学领域的表现提供了重要的实验平台，推动了基于RAG的医学问答系统的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集