mcq-vision

Hugging Face2025-03-10 更新2025-03-11 收录

下载链接：

https://huggingface.co/datasets/VisTai/mcq-vision

下载链接

链接失效反馈

官方服务：

资源简介：

VisTai-MCQ是一个基于台湾过去考试题目的视觉多项选择题问答基准数据集，涵盖了从小学到大学专业课程的各种教育水平。数据集选用了需要视觉理解的科目，如医学诊断、几何、电子电路设计和化学等领域的真实考试试卷，并收集了每个问题的平均准确度分数，用于评估问题难度和建立人类表现基线。

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

VisTai-MCQ数据集的构建采用了台湾各教育阶段过往考试题目，涵盖从小学到中学教育以及兽医等专业的本科课程。该数据集通过收集2013至2024年间公开可用的真实考试试卷而形成，选取了需要视觉理解的科目，如医学诊断、几何、电子电路设计和化学等。对于每个问题，还额外收集了人类表现数据，包括平均准确度分数，以评估问题的难度并建立人类表现基线。

特点

VisTai-MCQ数据集的特点在于它包含了多个领域的视觉理解问题，这些问题均源自真实考试环境，具有实际的教育和评估价值。数据集还提供了人类表现的基准，有助于研究者和开发者了解和比较机器学习模型与人类在视觉问答任务上的表现。

使用方法

使用VisTai-MCQ数据集时，用户可以根据具体的研究或开发需求选择不同的配置名称。每个配置名对应一个数据分割，包括测试集、验证集和开发集。用户可以通过指定的路径加载相应的数据文件，进而对模型进行训练、验证和测试。

背景与挑战

背景概述

VisTai-MCQ数据集，汇集了我国台湾地区不同教育层次的历史考试题目，涵盖了从小学到中学教育，以及兽医等专业的本科课程。该数据集的构建，利用了2013至2024年间从公开可获得资源中搜集的实际考试试卷，特别挑选了需要视觉理解的科目，如医学诊断、几何、电子电路设计以及化学等。数据集不仅包含了问题本身，还额外收集了人类表现的统计数据，以评估问题的难度并确立人类表现的基线。

当前挑战

在构建VisTai-MCQ数据集的过程中，研究人员面临了多方面的挑战。首先，确保收集到的考试题目具有代表性和准确性，能够反映不同教育层次和不同学科的特点。其次，针对视觉理解类的问题，如何有效地标注和分类图像，以及如何确保图像质量满足研究需求，是一大挑战。此外，收集人类表现数据时，还需考虑如何保证数据的真实性和可靠性，以便准确评估问题的难度。

常用场景

经典使用场景

VisTai-MCQ 数据集经典使用场景在于构建和评估视觉多选问答系统，尤其适用于需要视觉理解的教育和测试环境，如医学图像解析、几何问题解答、电子电路设计题等。

衍生相关工作

基于VisTai-MCQ 数据集，研究者可以开展多模态学习、视觉问答模型评估、教育数据挖掘等方向的衍生工作，进一步推动相关领域的研究进展。

数据集最近研究