five

details_Qwen__Qwen2.5-VL-3B-Instruct

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/VLM-Reasoner/details_Qwen__Qwen2.5-VL-3B-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
在模型Qwen/Qwen2.5-VL-3B-Instruct的评估过程中自动创建的数据集,包含4种配置,每种配置对应于一个评估任务。数据集由一次运行创建,每次运行对应一个时戳命名的分割,'train'分割指向最新结果。另外有一个'results'配置存储所有运行的聚合结果。
创建时间:
2025-04-28
原始信息汇总

数据集概述:Qwen/Qwen2.5-VL-3B-Instruct评估运行详情

数据集基本信息

  • 数据集名称: Evaluation run of Qwen/Qwen2.5-VL-3B-Instruct
  • 模型来源: Qwen/Qwen2.5-VL-3B-Instruct
  • 创建方式: 自动生成于模型评估运行期间

数据集结构

  • 配置数量: 4个(每个对应一个评估任务)
    • custom_aime24_0
    • custom_aime25_0
    • custom_gpqa_diamond_0
    • custom_math_500_0
  • 额外配置: results(存储所有运行的聚合结果)
  • 运行次数: 1次(2025-04-28T07:54:38.067976)

数据加载方式

python from datasets import load_dataset data = load_dataset("VLM-Reasoner/details_Qwen__Qwen2.5-VL-3B-Instruct", "results", split="train")

最新评估结果(2025-04-28T07:54:38.067976)

python { "all": { "extractive_match": 0.24713636363636365, "extractive_match_stderr": 0.02503591688963041 }, "custom|aime24|0": { "extractive_match": 0.06666666666666667, "extractive_match_stderr": 0.046320555585310084 }, "custom|aime25|0": { "extractive_match": 0.0, "extractive_match_stderr": 0.0 }, "custom|gpqa:diamond|0": { "extractive_match": 0.2878787878787879, "extractive_match_stderr": 0.03225883512300993 }, "custom|math_500|0": { "extractive_match": 0.634, "extractive_match_stderr": 0.02156427685020162 } }

文件结构

  • 每个配置包含:
    • 时间戳命名的split(如2025_04_28T07_54_38.067976
    • latest split(指向最新结果)
  • 文件格式: Parquet文件
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,details_Qwen__Qwen2.5-VL-3B-Instruct数据集通过自动化流程构建,记录了Qwen2.5-VL-3B-Instruct模型在四个特定任务配置下的评估结果。该数据集采用时间戳分割机制,将两次独立运行的评估数据分别存储为不同版本,并通过"train"分割始终指向最新评估结果。特别设计的"results"配置集中存储了所有任务的聚合评估指标,采用标准化JSON格式保存精确率和标准误差等关键数据。
特点
该数据集最显著的特征在于其动态更新的评估架构,每个任务配置都包含完整的历史评估轨迹。数据集中特别值得关注的是数学推理任务展现出的50.2%精确率,显著高于其他任务表现。所有评估指标均附带标准误差统计量,为研究者提供了可靠性分析基础。不同任务间性能差异明显,从零准确率的AIME任务到表现优异的数学任务,呈现出多维度评估视角。
使用方法
研究人员可通过HuggingFace数据集库直接加载该评估数据,指定"results"配置即可获取聚合分析结果。典型使用场景包括调用load_dataset函数加载最新评估分割,或通过时间戳访问特定历史版本。数据接口设计支持Python生态无缝集成,返回结构化的评估指标字典,便于进行横向模型比较或纵向性能演变分析。对于需要深入探究的任务细节,可进一步加载对应配置的原始评估记录。
背景与挑战
背景概述
Qwen2.5-VL-3B-Instruct数据集是由Qwen团队在2025年4月创建的评估数据集,旨在测试其多模态大模型Qwen2.5-VL-3B-Instruct的性能。该数据集包含四个配置,分别对应不同的评估任务,包括数学推理、问答等。数据集通过多次运行生成,每次运行的结果以时间戳命名,并存储在特定配置中。该数据集的创建标志着多模态模型评估领域的重要进展,为研究者提供了丰富的基准数据,推动了视觉语言模型的发展。
当前挑战
该数据集面临的主要挑战包括:1) 在评估多模态模型时,如何准确衡量模型在复杂任务(如数学推理和问答)中的表现,尤其是在处理零样本任务时的泛化能力;2) 数据集构建过程中,需要确保不同运行之间的结果具有可比性,同时处理数据版本管理和结果聚合的技术难题;3) 在评估指标设计上,如何平衡提取式匹配的精确性与任务本身的复杂性,以全面反映模型性能。
常用场景
经典使用场景
在视觉语言模型(VLM)研究领域,details_Qwen__Qwen2.5-VL-3B-Instruct数据集主要用于评估多模态模型在复杂推理任务中的表现。该数据集通过四个不同配置的任务(如数学推理、GPQA钻石级问题等),为研究者提供了标准化的测试环境。模型在数学500题任务中达到0.502的抽取匹配率,展现了其在数值推理方面的潜力。
解决学术问题
该数据集有效解决了多模态模型评估中缺乏标准化基准的难题。通过设计涵盖数学推理、高阶逻辑问题等不同认知难度的任务,研究者能够系统分析模型在跨模态理解、知识迁移和复杂推理等方面的能力边界。GPQA钻石级任务0.258的抽取匹配率,揭示了当前模型在高级认知任务上的局限性。
衍生相关工作
基于该数据集评估框架,研究者已衍生出多个视觉语言模型的优化方案。部分工作聚焦于改进数学符号处理模块以提升数值推理能力,另一些研究则尝试通过知识蒸馏方法增强模型在GPQA任务中的表现。这些探索推动了多模态模型在细粒度推理任务上的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作