BLUEX

Name: BLUEX
Creator: 巴西坎皮纳斯州立大学计算机研究所（IC）–巴西坎皮纳斯州立大学（UNICAMP）
Published: 2025-08-29 09:23:28
License: 暂无描述

arXiv2025-08-29 更新2025-09-03 收录

下载链接：

http://gr.a1

下载链接

链接失效反馈

官方服务：

资源简介：

BLUEX数据集是一个由巴西坎皮纳斯州立大学计算机研究所（IC）–巴西坎皮纳斯州立大学（UNICAMP）创建的多模态教育评估数据集，包含超过1000个来自巴西顶尖大学入学考试的多选题，时间跨度为2018年至2025年。数据集包含文本、答案选项和关联图像。该数据集旨在评估大型语言模型在多模态教育任务中的表现，并研究不同图像字幕策略对其性能的影响。数据集经过手动筛选和分类，以确保其质量。数据集的更新版本包括了额外的2024年和2025年考试数据，并使用最先进的模型自动生成了所有视觉元素的字幕，从而增强了其在大型语言模型预训练数据污染研究中的相关性。

The BLUEX Dataset is a multimodal educational assessment dataset created by the Institute of Computing (IC) at the University of Campinas (UNICAMP), Brazil. It contains over 1,000 multiple-choice questions sourced from Brazil's top university entrance examinations, spanning from 2018 to 2025. The dataset includes text, answer options, and associated images. It aims to evaluate the performance of Large Language Models (LLMs) on multimodal educational tasks, and to investigate the impact of different image captioning strategies on their performance. The dataset has undergone manual screening and categorization to ensure its quality. Its updated version incorporates additional 2024 and 2025 examination data, and automatically generates captions for all visual elements using state-of-the-art models, thereby enhancing its relevance in research on data contamination in Large Language Model pre-training.

提供机构：

巴西坎皮纳斯州立大学计算机研究所（IC）–巴西坎皮纳斯州立大学（UNICAMP）

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在高等教育评估领域，BLUEX数据集通过系统整合巴西顶尖大学入学考试题目构建而成。该数据集选取2018至2025年间巴西坎皮纳斯大学和圣保罗大学的入学考试真题，涵盖自然科学、人文科学、语言和数学四大学科领域。构建过程中采用双重标注策略：对原始试题中的视觉内容分别生成盲注描述和上下文感知描述，其中盲注描述仅基于图像内容生成，而上下文描述则结合试题文本进行情境化解读。所有数据均经过人工校验与分类，确保评估的严谨性和可重复性。

特点

作为多模态教育评估基准，BLUEX数据集具有显著的跨学科特性。其包含1,422道选择题，其中43%的题目集成视觉元素，真实还原了高等教育入学考试的多模态挑战。数据集提供两种专业化图像描述：盲注描述平均长度较长，注重视觉细节的完整性；上下文描述则更为精炼，聚焦于解题关键信息。这种双路径标注体系不仅扩展了纯文本模型的可访问性，更为研究视觉上下文对模型推理的影响提供了对照实验条件。数据集的时间跨度覆盖八年，能够有效追踪语言模型在复杂推理任务上的演进轨迹。

使用方法

该数据集支持三种实验配置以评估语言模型性能：纯文本模式仅提供试题文字内容；盲注描述模式将图像替换为无上下文信息的视觉描述；上下文描述模式则提供结合试题情境的智能标注。研究人员可通过lm-evaluation-harness框架进行标准化评估，针对不同参数规模的模型采用相应计算资源配置。评估时需注意保持试题原始格式，将图像描述嵌入到源考试布局的对应位置。这种设计既支持多模态模型的全面评估，也允许纯文本模型参与视觉相关任务的测评，为研究视觉 grounding 机制提供可控实验环境。

背景与挑战

背景概述

BLUEX数据集由巴西坎皮纳斯州立大学与Maritaca AI的研究团队于2023年联合创建，旨在解决葡萄牙语自然语言处理领域高质量基准数据稀缺的问题。该数据集整合了巴西顶尖大学及全球前500高校的入学考试题目，涵盖2018至2023年间的千余道多选题，其中40%的题目包含图像元素，专注于评估大语言模型在多模态教育场景中的复杂推理与跨领域理解能力。作为葡萄牙语领域首个深度融合视觉与文本的学术评估基准，BLUEX为研究多语言语境下模型的教育应用提供了重要实证基础。

当前挑战

该数据集核心挑战在于解决多模态教育评估中视觉-文本协同理解的复杂性：一是如何使纯文本模型有效处理依赖图像信息的题目，原始数据中43%的视觉相关题目无法被非多模态模型解析；二是在构建过程中需平衡两种图像描述生成策略——无上下文盲生成与上下文感知生成，前者可能包含冗余信息而后者可能丢失关键视觉细节。此外，确保自动生成的描述在葡萄牙语语境中保持学术准确性与文化相关性，亦是数据构建的重要技术难点。

常用场景

经典使用场景

在自然语言处理领域，BLUEX数据集主要应用于评估大型语言模型在高等教育入学考试场景中的多模态推理能力。该数据集整合了巴西顶尖大学入学考试的多项选择题，包含文本、图像和答案选项，为研究者提供了标准化的测试环境。通过自动生成的图像描述，研究者能够系统评估模型在视觉文本联合理解任务中的表现，特别是在处理需要跨模态推理的教育评估题目时展现出的认知能力。

实际应用

在实际应用层面，BLUEX数据集被广泛应用于教育科技领域的智能辅导系统开发。基于该数据集训练的模型能够协助学生进行入学考试准备，提供精准的题目解析和知识点推荐。同时，教育机构可利用该数据集评估自动化评分系统的性能，优化在线教育平台的内容生成质量。这些应用不仅提升了教育评估的效率，也为个性化学习路径的构建提供了技术支撑。

衍生相关工作

该数据集衍生出了一系列重要的研究工作，包括基于多模态 captioning 技术的模型性能优化方法。研究者通过对比盲生成和上下文感知两种图像描述策略，深入探索了视觉信息文本化对模型推理效果的影响。后续工作进一步扩展了数据集的时效性和覆盖范围，推动了葡萄牙语自然语言处理基准的发展，并为跨语言多模态评估框架的建立提供了重要范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集