details_Qwen__Qwen2.5-VL-3B-Instruct

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/VLM-Reasoner/details_Qwen__Qwen2.5-VL-3B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

在模型Qwen/Qwen2.5-VL-3B-Instruct的评估过程中自动创建的数据集，包含4种配置，每种配置对应于一个评估任务。数据集由一次运行创建，每次运行对应一个时戳命名的分割，'train'分割指向最新结果。另外有一个'results'配置存储所有运行的聚合结果。

创建时间：

2025-04-28

原始信息汇总

数据集概述：Qwen/Qwen2.5-VL-3B-Instruct评估运行详情

数据集基本信息

数据集名称: Evaluation run of Qwen/Qwen2.5-VL-3B-Instruct
模型来源: Qwen/Qwen2.5-VL-3B-Instruct
创建方式: 自动生成于模型评估运行期间

数据集结构

配置数量: 4个（每个对应一个评估任务）
- custom_aime24_0
- custom_aime25_0
- custom_gpqa_diamond_0
- custom_math_500_0
额外配置: results（存储所有运行的聚合结果）
运行次数: 1次（2025-04-28T07:54:38.067976）

数据加载方式

python from datasets import load_dataset data = load_dataset("VLM-Reasoner/details_Qwen__Qwen2.5-VL-3B-Instruct", "results", split="train")

最新评估结果（2025-04-28T07:54:38.067976）

python { "all": { "extractive_match": 0.24713636363636365, "extractive_match_stderr": 0.02503591688963041 }, "custom|aime24|0": { "extractive_match": 0.06666666666666667, "extractive_match_stderr": 0.046320555585310084 }, "custom|aime25|0": { "extractive_match": 0.0, "extractive_match_stderr": 0.0 }, "custom|gpqa:diamond|0": { "extractive_match": 0.2878787878787879, "extractive_match_stderr": 0.03225883512300993 }, "custom|math_500|0": { "extractive_match": 0.634, "extractive_match_stderr": 0.02156427685020162 } }

文件结构

每个配置包含:
- 时间戳命名的split（如2025_04_28T07_54_38.067976）
- latest split（指向最新结果）
文件格式: Parquet文件

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，details_Qwen__Qwen2.5-VL-3B-Instruct数据集通过自动化流程构建，记录了Qwen2.5-VL-3B-Instruct模型在四个特定任务配置下的评估结果。该数据集采用时间戳分割机制，将两次独立运行的评估数据分别存储为不同版本，并通过"train"分割始终指向最新评估结果。特别设计的"results"配置集中存储了所有任务的聚合评估指标，采用标准化JSON格式保存精确率和标准误差等关键数据。

特点

该数据集最显著的特征在于其动态更新的评估架构，每个任务配置都包含完整的历史评估轨迹。数据集中特别值得关注的是数学推理任务展现出的50.2%精确率，显著高于其他任务表现。所有评估指标均附带标准误差统计量，为研究者提供了可靠性分析基础。不同任务间性能差异明显，从零准确率的AIME任务到表现优异的数学任务，呈现出多维度评估视角。

使用方法

研究人员可通过HuggingFace数据集库直接加载该评估数据，指定"results"配置即可获取聚合分析结果。典型使用场景包括调用load_dataset函数加载最新评估分割，或通过时间戳访问特定历史版本。数据接口设计支持Python生态无缝集成，返回结构化的评估指标字典，便于进行横向模型比较或纵向性能演变分析。对于需要深入探究的任务细节，可进一步加载对应配置的原始评估记录。

背景与挑战

背景概述

Qwen2.5-VL-3B-Instruct数据集是由Qwen团队在2025年4月创建的评估数据集，旨在测试其多模态大模型Qwen2.5-VL-3B-Instruct的性能。该数据集包含四个配置，分别对应不同的评估任务，包括数学推理、问答等。数据集通过多次运行生成，每次运行的结果以时间戳命名，并存储在特定配置中。该数据集的创建标志着多模态模型评估领域的重要进展，为研究者提供了丰富的基准数据，推动了视觉语言模型的发展。

当前挑战

该数据集面临的主要挑战包括：1) 在评估多模态模型时，如何准确衡量模型在复杂任务（如数学推理和问答）中的表现，尤其是在处理零样本任务时的泛化能力；2) 数据集构建过程中，需要确保不同运行之间的结果具有可比性，同时处理数据版本管理和结果聚合的技术难题；3) 在评估指标设计上，如何平衡提取式匹配的精确性与任务本身的复杂性，以全面反映模型性能。

常用场景

经典使用场景

在视觉语言模型（VLM）研究领域，details_Qwen__Qwen2.5-VL-3B-Instruct数据集主要用于评估多模态模型在复杂推理任务中的表现。该数据集通过四个不同配置的任务（如数学推理、GPQA钻石级问题等），为研究者提供了标准化的测试环境。模型在数学500题任务中达到0.502的抽取匹配率，展现了其在数值推理方面的潜力。

解决学术问题

该数据集有效解决了多模态模型评估中缺乏标准化基准的难题。通过设计涵盖数学推理、高阶逻辑问题等不同认知难度的任务，研究者能够系统分析模型在跨模态理解、知识迁移和复杂推理等方面的能力边界。GPQA钻石级任务0.258的抽取匹配率，揭示了当前模型在高级认知任务上的局限性。

衍生相关工作

基于该数据集评估框架，研究者已衍生出多个视觉语言模型的优化方案。部分工作聚焦于改进数学符号处理模块以提升数值推理能力，另一些研究则尝试通过知识蒸馏方法增强模型在GPQA任务中的表现。这些探索推动了多模态模型在细粒度推理任务上的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集