m1-medbench

Hugging Face2025-03-13 更新2025-03-14 收录

下载链接：

https://huggingface.co/datasets/OpenMedical/m1-medbench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含医学多项选择题（MCQ）的数据集，旨在为医学知识相关的研究和应用提供标准化的数据。数据集由来自多个知名来源的医学MCQ组成，并通过Qwen 2.5 Instruct 72B模型进行MeSH分类和问题陈述的优化。数据集经过严格过滤，确保每个问题只有一个正确答案，并去除了不合适的格式和内容。最终，数据集包含了多种类型的问题，用于测试对医学概念的理解。

This is a dataset comprising medical multiple-choice questions (MCQs), designed to provide standardized data for medical knowledge-related research and applications. The dataset is composed of medical MCQs from multiple well-known sources, and optimized for MeSH classification and question statement refinement using the Qwen 2.5 Instruct 72B model. The dataset underwent strict filtering to ensure each question has exactly one correct answer, and to eliminate inappropriate formats and content. Ultimately, the dataset includes various types of questions intended to test understanding of medical concepts.

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

m1-medbench数据集的构建起始于对OpenMedical/medical-data的搜集，该数据源整合了MedQA、MedMCQA、Med-HALT等多个知名医学数据集，以及为医学执照考试准备的各类在线资源。经过Qwen 2.5 Instruct 72B模型的MeSH分类处理，数据集得以标准化。随后，通过应用一系列严格的数据过滤标准，如去除不符合单选答案格式、过长的问题、含有特定指示的临床案例描述等问题，确保了数据集的质量和针对性。数据集的核心转化是将每个多项选择题(MCQ)扩展为一系列独立的陈述，再经过模型的改写，最终生成多样化的医学问题。

特点

该数据集的特点在于其结构的标准化、内容的多样性和针对性。利用MeSH术语进行分类，使得数据集在医学内容的索引上更为有序。数据集通过过滤和转化，专注于更为普适的医学知识而非特定病例，且涵盖了不同难度级别和医学领域。此外，数据集通过生成不同类型的问题，如判断真伪、选择正确数量等，以适应不同研究和应用的需求。

使用方法

使用m1-medbench数据集时，用户可根据需求选择不同的数据分割，如训练集。数据集以JSON格式存储，可以直接通过Hugging Face的库加载。用户可以依据问题类型、难度和领域等特征进行数据筛选，便于开展特定主题的医学知识和推理研究。同时，数据集提供的多样化问题类型，也为开发医学知识问答系统或其他相关应用提供了丰富的资源。

背景与挑战

背景概述

m1-medbench数据集，是在医学领域内构建的一个用于评估和训练自然语言处理模型的重要资源。该数据集的创建始于对OpenMedical/medical-data的收集，其中汇集了来自MedQA、MedMCQA等多个知名医学数据源的多个选择题目（MCQs）。通过Qwen 2.5 Instruct 72B模型对题目进行MeSH分类，并经过一系列严格的数据过滤和转换过程，形成了包含不同难度和医学领域的多个选择题目。该数据集自构建以来，已成为医学知识推理和自然语言理解领域的研究人员的重要工具。

当前挑战

该数据集在构建过程中面临了多项挑战，其中包括确保数据质量的高标准，如有效答案的筛选、避免包含多个正确答案或非字母答案的题目、排除不适用于单选格式的题目以及过长的题目。此外，数据集构建团队还需克服将多个选择题目转换为独立陈述并重写为清晰、简洁的医学陈述的技术难题。在多样化问题类型生成方面，保证问题类型的多样性和准确性也是一个显著的挑战。这些挑战不仅要求精确的数据处理技术，还需要对医学知识有深入的理解。

常用场景

经典使用场景

m1-medbench数据集在医学知识评估与推理研究中具有广泛的应用。其经典使用场景包括构建和评估医学领域内的多选题问答系统，通过将医学问题与选项结合生成陈述句，进而形成多样化的问题类型，以测试受试者在不同医学领域的知识掌握程度。

衍生相关工作

基于m1-medbench数据集，研究者们衍生出多种相关工作，如构建更复杂的医学推理模型、开发个性化医学学习系统以及进行医学知识图谱的构建和研究。这些工作进一步扩展了该数据集的应用范围，推动了医学信息学的发展。

数据集最近研究