five

Kun-Xiang/Track3-SeePhysPro-Test

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Kun-Xiang/Track3-SeePhysPro-Test
下载链接
链接失效反馈
官方服务:
资源简介:
SeePhys Pro测试集是SeePhys Pro的完整测试数据集,包含level1至level5五个难度级别。该数据集专为Hugging Face平台上传设计,并特意排除了包含答案的列(如答案、单位、推理过程和误差范围)。数据集总计3320行数据,分布在五个分片中:level1至level4各800行,level5有120行。数据集特征包括问题ID、行ID、索引、问题描述和图像序列。

The SeePhys Pro Test dataset is the full test split for SeePhys Pro, containing levels 1 through 5. This dataset is prepared for Hugging Face upload and intentionally excludes answer-bearing columns: `answer`, `unit`, `reasoning`, and `error_range`. The dataset contains a total of 3320 rows distributed across five splits: level1 to level4 each have 800 rows, and level5 has 120 rows. Features include question_id, row_id, idx, problem, and images sequence.
提供机构:
Kun-Xiang
搜集汇总
数据集介绍
main_image_url
构建方式
Track3-SeePhysPro-Test 是 SeePhys Pro 项目中的公开测试基准,旨在评估多模态物理推理模型在视觉表示变化下的鲁棒性。该数据集通过五个难度层级(level1 至 level5)构建,每个层级包含 800 条样本,而 level5 则精炼至 120 条,共计 3320 条数据。每条样本由问题标识符、行号、索引、问题文本及图像序列组成,数据以 Parquet 格式存储,确保高效的读取与处理。数据集的发布与 ICML 2026 的 AI for Math 研讨会 Track 3 挑战赛同步,当前版本隐藏了答案字段,待挑战结束后将完整公开。
特点
该数据集的核心特色在于其多层级难度设计,逐步增强视觉表示对物理推理的影响,从而系统性地诊断模态迁移与盲训练效应。从 level1 至 level5,问题从依赖简单文本描述过渡到需要复杂视觉理解的场景,挑战模型在不同视觉表征下的泛化能力。此外,数据集与 SeePhys Pro 论文及项目紧密关联,提供了开发版、训练集及视觉必要子集等配套资源,构成完整的评估体系。其公开的挑战赛形式也促进了社区对多模态推理鲁棒性的深入研究。
使用方法
使用 Track3-SeePhysPro-Test 时,研究人员可通过 Hugging Face Datasets 库便捷加载。例如,使用 load_dataset("Kun-Xiang/Track3-SeePhysPro-Test") 可一次性加载所有层级,或通过指定 split 参数(如 level1)单独获取特定难度数据。对于本地部署,用户可直接从 Parquet 文件路径加载。加载后的数据包含问题文本与图像序列,便于直接用于多模态模型的推理与评估。需注意,在挑战期间部分字段未公开,完整字段需等待赛后发布。
背景与挑战
背景概述
Track3-SeePhysPro-Test是由Kun Xiang等研究者于2026年发布的多模态物理推理基准测试集,源自SeePhys Pro项目,旨在探究多模态强化学习与视觉推理(RLVR)中模态迁移与盲训练效应。该数据集关联AI for Math Workshop(ICML 2026)的Track 3挑战赛,专注于评估模型在不同视觉表征层级下对同一物理问题的推理鲁棒性。其核心研究问题在于诊断多模态模型在视觉信息从简到繁(level1至level5)的渐进变化中,是否真正依赖于视觉信号进行物理理解,抑或仅依赖语言模式。该数据集通过精心设计的3320个实例,为多模态学习领域提供了关于视觉接地与表征迁移的标准化测试平台,对推动物理推理AI的透明性与可靠性具有重要影响力。
当前挑战
该数据集的核心挑战在于解决多模态物理推理中模型对视觉信息的真实利用问题。领域层面,现有模型常因语言偏置而忽略视觉线索,导致在视觉表征变化时性能骤降,亟需验证模型是否具备模态迁移鲁棒性。构建过程中,研究者面临多重挑战:其一,需设计五个难度递增的层级,确保同一物理概念在不同视觉形式(如示意图、照片、抽象图)下被公平评估;其二,需确保答案字段在挑战期间隐藏,防止数据泄露,这要求精细的元数据管理;其三,需涵盖广泛物理现象(力学、电学等),平衡数据分布以避免领域过拟合,从而保障基准的通用性与诊断效力。
常用场景
经典使用场景
Track3-SeePhysPro-Test 是SeePhys Pro项目中的核心基准测试数据集,专为评估多模态物理推理能力而设计。该数据集通过逐步增加视觉表征的复杂性,对同一物理概念进行跨模态迁移诊断,以考察模型在视觉信息从无到有、从简单到复杂条件下的鲁棒性。作为公开挑战赛的测试集,它涵盖五个难度等级(level1至level5),共3320个样本,每个样本包含物理问题及其关联图像,广泛用于检验多模态大模型在物理推理任务中的视觉理解与表征迁移能力。
实际应用
在实际应用中,Track3-SeePhysPro-Test可服务于教育科技领域,用于测试和优化智能辅导系统的物理问题解答能力,特别是在需要融合文本与图像信息的真实学习场景中。此外,该数据集还可作为工业级多模态模型的验收标准,助力开发者在自动驾驶、科学仿真等对视觉推理精度要求严苛的行业中,评估模型在复杂视觉环境下的物理理解稳健性。其分级设计也便于逐步排查模型在不同视觉难度下的故障表现。
衍生相关工作
围绕Track3-SeePhysPro-Test,衍生出多个关联工作与资源。该数据集所属的SeePhys Pro项目还提供了开发版测试集Track3-SeePhysPro-Testmini和专门用于强化学习训练的PhysRL-38K及视觉必要子集PhysRL-8K。此外,该基准被用于ICML 2026 AI for Math工作坊的Track 3挑战赛,激发了一系列关于多模态物理推理、模态迁移诊断及盲训效应检测的学术研究。相关论文发表于arXiv,并开源了代码与项目页面,形成从数据到方法再到评估的完整研究链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作