CMB-Exam-Grouped

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/fzkuji/CMB-Exam-Grouped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'CMB-Exam-Grouped'，包含按共享背景上下文分组的医学考试问题。数据集包含多种配置（context、default、subdomain），具有考试元数据（类型、类别、科目）、问题、答案、选项和医学术语等特征。context配置特别强调了具有共享背景的问题分组。数据集分为训练、验证和测试集，并提供了样本数量的统计信息。

创建时间：

2025-12-04

原始信息汇总

CMB-Exam-Grouped 数据集概述

数据集简介

该数据集包含医学考试题目，其中共享的背景上下文已被提取并分组。

数据集配置与结构

数据集包含三个配置：context、default 和 subdomain。

配置：context

特征：
- exam_type：字符串，考试类型。
- exam_class：字符串，考试类别。
- exam_subject：字符串，考试科目。
- question：字符串，问题（如适用，已移除背景）。
- answer：字符串，正确答案。
- question_type：字符串，问题类型。
- option：结构体，包含A-F的字符串选项。
- background：字符串，从问题中提取的共享上下文/背景文本。
- background_id：整型，用于分组共享相同背景的问题的ID（-1表示无共享背景）。
数据分割：
- train：2,158个样本，1,352,187字节。
- val：4个样本，2,954字节。
- test：4个样本，1,804字节。
大小：
- 下载大小：442,307字节。
- 数据集大小：1,356,945字节。

配置：default

特征：
- exam_type：字符串，考试类型。
- exam_class：字符串，考试类别。
- exam_subject：字符串，考试科目。
- question：字符串，问题。
- answer：字符串，正确答案。
- question_type：字符串，问题类型。
- option：结构体，包含A-F的字符串选项。
- medical_terms：字符串列表，医学术语。
数据分割：
- train：269,359个样本，85,316,691字节。
- val：280个样本，106,698字节。
- test：11,200个样本，3,548,549字节。
大小：
- 下载大小：40,457,932字节。
- 数据集大小：88,971,938字节。

配置：subdomain

特征：
- exam_type：字符串，考试类型。
- exam_class：字符串，考试类别。
- exam_subject：字符串，考试科目。
- question：字符串，问题。
- answer：字符串，正确答案。
- question_type：字符串，问题类型。
- option：结构体，包含A-F的字符串选项。
- medical_terms：字符串列表，医学术语。
数据分割：
- train：269,359个样本，85,316,691字节。
- val：280个样本，106,698字节。
- test：11,200个样本，3,548,549字节。
大小：
- 下载大小：40,457,932字节。
- 数据集大小：88,971,938字节。

关键特征说明

question_id：每个问题的唯一标识符。
background_id：用于对共享相同背景的问题进行分组的ID（-1表示无共享背景）。
background：从问题中提取的共享上下文/背景文本。
question：实际问题（如适用，已移除背景）。
option：多项选择选项（A-F）。
answer：正确答案。
exam_type、exam_class、exam_subject：考试元数据。

数据统计（基于README描述）

训练集：2,062个具有共享背景的样本。
验证集：7个样本。
测试集：6个样本。

搜集汇总

数据集介绍

构建方式

在医学教育领域，构建高质量的数据集对于推动智能辅助学习系统的发展至关重要。CMB-Exam-Grouped数据集通过精心设计的数据处理流程，从原始医学考试题目中提取共享的背景信息，并依据背景标识符进行智能分组。该过程涉及对题目文本的深度解析，剥离重复的背景描述，确保每个问题在去除冗余后仍保持完整的语义独立性。数据集以三种配置呈现，分别对应不同的数据组织方式，其中context配置专门处理具有共同背景的题目集合，而default和subdomain配置则侧重于题目的学科分类与医学术语标注。

特点

该数据集的核心特征在于其结构化的医学考试题目组织形式，每道题目均附带详细的元数据，包括考试类型、科目分类以及问题类型。独特的背景分组机制使得研究者能够探索基于上下文的多问题推理任务，而丰富的医学术语列表则为自然语言处理模型提供了专业领域的词汇支持。数据集的规模适中，训练集包含超过26万条样本，测试集与验证集经过精心划分，确保了模型评估的可靠性与泛化能力。

使用方法

研究者可通过HuggingFace平台直接加载数据集的三种配置，依据具体研究目标选择适合的数据分割。对于上下文感知的医学问答任务，推荐使用context配置，其中背景信息与问题分离的设计便于模型学习上下文依赖关系。在模型训练过程中，可利用exam_subject和medical_terms字段进行学科特定的微调或术语增强。数据集的标准化格式支持直接应用于多选问答、文本分类以及医学知识推理等多种自然语言处理任务的基准测试。

背景与挑战

背景概述

CMB-Exam-Grouped数据集聚焦于医学考试问答领域，旨在通过结构化组织共享背景的试题，推动医学自然语言处理与智能教育系统的发展。该数据集由相关研究团队构建，核心研究问题在于如何有效提取与分组医学试题中的共同背景信息，以支持上下文感知的问答模型训练。其影响力体现在为医学知识推理与临床决策辅助提供了高质量的标注资源，促进了跨学科交叉研究。

当前挑战

该数据集致力于解决医学考试问答中的上下文依赖与知识整合挑战，要求模型在复杂医学背景下进行精准推理。构建过程中面临多重困难：医学文本的专业性与多样性导致背景提取与标准化难度较高；试题分组需平衡语义一致性与数据完整性；标注过程依赖领域专家，成本与质量控制成为关键制约因素。

常用场景

经典使用场景

在医学教育领域，CMB-Exam-Grouped数据集为医学考试题目提供了结构化的背景信息分组，其经典使用场景在于支持医学问答系统的开发与评估。该数据集通过将共享相同背景的试题进行聚合，使得模型能够基于连贯的上下文进行推理，从而模拟真实医学考试中题目间的逻辑关联性。这种分组机制有助于训练模型理解复杂医学概念在多个问题中的一致性应用，为自动答题系统提供了丰富的训练素材。

实际应用

在实际应用中，CMB-Exam-Grouped数据集被广泛用于构建智能医学教育平台和临床决策支持工具。教育机构可利用该数据集开发自适应学习系统，根据学生的答题表现动态调整背景知识的讲解深度。医疗机构则能借助基于该数据集训练的模型，辅助医生进行临床知识检索与考核，提升医疗培训的效率和标准化水平，同时为医学资格考试提供智能化备考资源。

衍生相关工作

围绕该数据集衍生的经典工作主要包括医学领域预训练语言模型的优化研究。例如，研究者利用其分组特性开发了基于上下文的医学问答模型，显著提升了多项选择题的准确率。此外，该数据集还催生了针对医学术语理解的知识增强方法，通过背景信息与医学术语列表的结合，推动了细粒度医学语义表示学习的发展，为后续多模态医学推理数据集的建设提供了范式参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集