Kun-Xiang/Track3-SeePhysPro-Testmini
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Kun-Xiang/Track3-SeePhysPro-Testmini
下载链接
链接失效反馈官方服务:
资源简介:
SeePhys Pro Testmini是SeePhys Pro的公共测试迷你分割数据集。它包含从level1_testmini到level5_testmini的五个不同级别的测试分割,每个分割的行数分别为200、200、200、200和30,总计830行。数据集的特征包括question_id、row_id、idx、problem和images。该数据集特意排除了包含答案的列(answer、unit、reasoning和error_range),适用于模型测试和评估。
Public testmini split for SeePhys Pro. It contains level1_testmini through level5_testmini. The dataset includes five different levels of test splits with 200, 200, 200, 200, and 30 rows respectively, totaling 830 rows. Features include question_id, row_id, idx, problem, and images. The dataset intentionally excludes answer-bearing columns: answer, unit, reasoning, and error_range, making it suitable for model testing and evaluation.
提供机构:
Kun-Xiang
搜集汇总
数据集介绍

构建方式
Track3-SeePhysPro-Testmini是SeePhys Pro基准测试的紧凑型公开开发子集,旨在诊断多模态强化学习与视觉推理(RLVR)在物理推理中的模态迁移与盲训练效应。该数据集通过将同一物理问题以渐进式视觉表征形式呈现,构建了五个难度层级(level1至level5),每个层级包含200个样本(level5仅30个),总计830条数据。每个样本由问题ID、行索引、问题文本及图像序列组成,采用Parquet格式存储,并通过HuggingFace的datasets库加载。
特点
该数据集的核心特色在于其渐进式难度设计,从纯文本推理逐步过渡到高视觉依赖的物理问题,系统性地评估模型在模态迁移下的表现。各层级样本数量均衡(除level5外),便于进行对比实验。值得关注的是,当前公开版本刻意隐藏了答案字段,以配合ICML 2026 AI for Math Workshop的Track 3挑战赛,确保竞赛公平性。完整标注版本预计在赛后发布,为后续研究提供更全面的评估基础。
使用方法
使用该数据集时,用户可通过HuggingFace的datasets库直接加载,例如`load_dataset("Kun-Xiang/Track3-SeePhysPro-Testmini")`即可获取所有层级;也可按需加载单一层级,如`split="level1_testmini"`。对于本地部署,支持从Parquet文件加载。加载后的每个样本包含`question_id`、`row_id`、`idx`、`problem`(问题文本)及`images`(图像序列)字段,适用于多模态模型在物理推理场景下的性能评测与算法开发。
背景与挑战
背景概述
Track3-SeePhysPro-Testmini数据集由Kun-Xiang研究团队创建,作为SeePhys Pro项目的一部分,旨在系统性地诊断多模态强化学习与视觉推理(RLVR)中物理推理任务的模态转移与盲训练效应。该数据集于ICML 2026的AI for Math Workshop上作为Track 3公开挑战赛的测试mini分片发布,包含从level1到level5五个难度递增的子集,总计830个样本,每个样本由问题文本与多张图像构成。其核心研究问题在于评估多模态大模型在同一物理规律下,面对逐步抽象化视觉表征时的推理能力变化,填补了现有基准在物理推理模态泛化评估方面的空白,对该领域内模型鲁棒性与泛化性研究具有重要推动作用。
当前挑战
该数据集所解决的领域挑战在于,当前多模态推理模型常过度依赖文本线索而忽视视觉模态,导致在视觉信息逐步增强时推理性能不稳定,即模态转移与盲训练效应问题。具体而言,模型需要在同一物理背景下,从纯文本描述(level1)到逐步引入示意图、图表乃至真实场景图像(level5)的各级评测中保持推理一致性,这对模型的跨模态对齐与物理概念理解提出了严苛要求。构建过程中,挑战在于设计难度渐进且物理意义清晰的多层级视觉化问题,确保各层级间仅视觉表征发生变化而底层物理规律不变,同时需隐去答案字段以适配竞赛场景,避免数据泄露并保证评估公平性。
常用场景
经典使用场景
在物理推理与多模态学习的交叉领域,Track3-SeePhysPro-Testmini作为SeePhys Pro基准的紧凑型公开测试子集,主要用于评估多模态大语言模型在物理推理任务中的表现。该数据集通过精心设计的五个难度层级(level1至level5),逐步增加问题的视觉表征复杂度,使得研究者能够系统性地诊断模型在面对同一物理概念从纯文本描述到复杂视觉呈现这一模态转换时的推理能力退化现象。其经典用法包括作为快速原型验证工具,用于调试和检验物理推理基准的格式、数据加载流程以及提交系统的正确性,同时也为参赛团队提供有限的训练前验证样本。
解决学术问题
该数据集专门针对多模态物理推理中一个关键且未被充分探索的学术问题——模态迁移效应与盲训练现象。现有视觉问答基准常因物理问题与视觉表征高度耦合而难以独立评估模态转换带来的影响,而SeePhys Pro通过保持底层物理逻辑不变、仅渐进变化视觉表征形式,精确解耦了视觉模态对推理性能的干扰。该数据集的发布使得研究者能够量化评估模型在纯文本与多种图形化表示之间的迁移能力,揭示模型是否依赖视觉特征伪影而非真实理解物理规律来作答,从而为开发更鲁棒的多模态推理算法提供了严谨的评估基准。
衍生相关工作
围绕Track3-SeePhysPro-Testmini及其配套项目,已衍生出一系列高质量研究工作。其核心论文《SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning》系统提出了跨模态迁移诊断框架,并揭示了盲目训练(blind-training)对物理推理鲁棒性的负面影响。配套的PhysRL-38K和PhysRL-8K训练集为强化学习与视觉必要推理子集的研究提供了数据基础。此外,该数据集作为ICML 2026竞赛Track 3的公用基准,激励了多支团队开发针对物理推理的新型多模态架构与训练策略,例如对比学习增强的视觉编码器、分离式模态对齐网络以及基于物理先验的推理模块。这些工作共同构建了一个从诊断评估到模型优化的完整研究生态。
以上内容由遇见数据集搜集并总结生成



