TPRU
收藏github2026-02-12 更新2026-02-13 收录
下载链接:
https://github.com/Stephen-gzk/TPRU
下载链接
链接失效反馈官方服务:
资源简介:
TPRU是一个大规模的数据集,旨在通过三个互补任务(时序重排、下一帧预测和前一帧回顾)培养多模态大型语言模型中的时序推理能力。数据集包含24,750个高质量训练样本,来源于机器人操作、乐高组装、GUI导航等多种具体场景。
TPRU is a large-scale dataset designed to cultivate temporal reasoning capabilities in multimodal large language models through three complementary tasks: temporal rearrangement, next-frame prediction, and previous-frame recall. It contains 24,750 high-quality training samples derived from various concrete scenarios such as robot manipulation, Lego assembly, and GUI navigation.
创建时间:
2026-01-30
原始信息汇总
TPRU数据集概述
数据集基本信息
- 数据集名称: TPRU (Temporal-Procedural and Understanding)
- 官方仓库地址: https://github.com/Stephen-gzk/TPRU
- 发布日期: 2026年2月12日
- 关联论文: "TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models" (ICLR 2026)
数据集构成与获取
- 训练集: TPRU-25k (24,750个高质量训练样本)
- 测试集: TPRU-test
- 数据集托管地址:
- TPRU-25k: https://huggingface.co/datasets/Stephengzk/TPRU-25k
- TPRU-test: https://huggingface.co/datasets/Stephengzk/TPRU-test
数据集设计目标
- 核心目标: 解决多模态大语言模型在理解和处理时序与过程性视觉数据方面的缺陷。
- 应用场景: 机器人操作、导航等具身人工智能任务。
- 数据来源: 多样化的具身场景,包括机器人操作、乐高组装、GUI导航等。
核心任务设计
数据集通过以下三个互补任务来培养时序推理能力:
- 时序重排: 重构被打乱帧的正确序列。
- 下一帧预测: 给定一个序列,预测紧接着的未来状态。
- 上一帧回顾: 给定一个结果,推断其先决状态。
数据集特点
- 通过负样本和结构化的时序任务,强制执行主动的跨模态验证。
- 包含24,750个高质量训练样本。
关联模型
基于该数据集训练并发布的模型:
- TPRU-3B: https://huggingface.co/Stephengzk/TPRU-3B
- TPRU-7B: https://huggingface.co/Stephengzk/TPRU-7B
- TPRU-32B: https://huggingface.co/Stephengzk/TPRU-32B
评估基准
模型在以下基准上进行了评估:
- MuirBench
- Lego-puzzles
- 其他多图像基准
- TPRU-test
训练方法
- 使用Easy-R1框架和组偏好优化进行训练。
- 采用强化学习与特定时序任务相结合的方法。
引用信息
bibtex @inproceedings{gao2026tpru, title={TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models}, author={Gao, Zhenkun and Wang, Xuhong and Tan, Xin and Xie, Yuan}, booktitle={Published as a conference paper at ICLR 2026}, year={2026} }
搜集汇总
数据集介绍

构建方式
在具身智能领域,多模态大模型常因缺乏时序与流程理解能力而难以适应复杂动态场景。TPRU数据集为此精心构建,从机器人操作、乐高组装及图形界面导航等多样化具身场景中,采集了24,750个高质量训练样本。这些样本通过三项核心任务——时序重排、下一帧预测与前一帧回顾——系统化组织,并引入负样本以强化跨模态验证,从而构建出一个旨在深化模型对时间与程序逻辑认知的结构化数据集。
特点
TPRU数据集的特点在于其任务设计的互补性与挑战性。它不仅覆盖了多种具身智能场景,还通过时序重排、下一帧预测和前一帧回顾这三项任务,全面检验模型对时间顺序与因果关系的理解。数据集特别加入了负样本机制,迫使模型进行主动的跨模态验证,增强了学习过程的严谨性。这种结构化的任务设计,使得TPRU能够有效暴露并弥补现有模型在时序推理上的短板,为评估与提升多模态模型的程序性理解设立了新的基准。
使用方法
使用TPRU数据集时,研究人员可遵循其配套的训练范式进行模型微调与评估。数据集已托管于Hugging Face平台,包含TPRU-25k训练集与TPRU-test测试集。用户可通过克隆项目仓库并配置指定Python环境(如安装PyTorch 2.6.0及Flash Attention等依赖)快速开始。训练推荐采用基于Easy-R1框架的组偏好优化方法,并提供了示例脚本。对于性能评估,可借助VLMEvalKit等工具在TPRU-test及其他多图像基准测试上进行,以系统衡量模型在时序与程序理解任务上的表现。
背景与挑战
背景概述
在人工智能领域,多模态大语言模型(MLLMs)的快速发展推动了视觉与语言理解的深度融合,然而这些模型,尤其是较小规模的变体,在处理时序和程序性视觉数据时往往表现出显著的能力缺陷。这一局限性严重制约了它们在具身人工智能任务中的应用,例如机器人操作与导航。为应对这一挑战,研究团队于2025年9月正式推出了TPRU数据集,该数据集由Zhenkun Gao、Xuhong Wang、Xin Tan和Yuan Xie等研究人员共同构建,并已被ICLR 2026接收。TPRU旨在通过强化学习与特定时序任务的结合,系统性地提升模型对时序逻辑和程序性步骤的理解能力,从而为具身智能的实践应用奠定坚实基础。
当前挑战
TPRU数据集致力于解决多模态大语言模型在时序与程序性理解方面的核心挑战,具体包括模型对动态视觉序列中因果关系的推断困难、对连续动作步骤的逻辑重构能力不足,以及在预测未来帧或回溯先前状态时的准确性局限。在数据集构建过程中,研究团队面临了多重挑战:首先,需要从机器人操作、乐高组装、图形界面导航等多样化的具身场景中采集并标注高质量、时序连贯的多帧样本,确保数据覆盖的广度和逻辑复杂性;其次,设计有效的负样本以促进跨模态主动验证,并构建结构化的时序任务(如时序重排、下一帧预测与前帧回顾),以强化模型对程序逻辑的深层理解,这些过程均对数据标注的精确性与任务设计的科学性提出了较高要求。
常用场景
经典使用场景
在具身人工智能领域,时序与过程理解是智能体执行复杂任务的核心能力。TPRU数据集通过其精心设计的三大任务——时序重排、下一帧预测与前一帧回顾,为多模态大语言模型提供了系统化的训练框架。该数据集常被用于模型微调与基准测试,特别是在机器人操作、图形界面导航等动态场景中,研究者利用其丰富的序列化视觉样本,有效评估并提升模型对事件因果与时间逻辑的推理精度。
实际应用
TPRU数据集的实际价值体现在多个前沿应用场景中。在工业自动化领域,它能够优化机器人装配流程的视觉规划能力;在智能辅助系统中,可提升界面操作步骤的预测与回溯效率;此外,在教育与培训模拟环境里,该数据集支持构建更逼真的交互式学习模块。这些应用共同彰显了TPRU在推动人工智能从静态感知向动态决策转型过程中的关键作用。
衍生相关工作
围绕TPRU数据集,学术界已衍生出一系列经典研究工作。例如,基于其任务框架开发的TPRU-7B模型,在MuirBench、Lego-puzzles等基准测试中取得了显著优势,激发了更多针对小参数模型时序能力优化的探索。同时,该数据集也促进了如Easy-R1训练框架与VLMEvalKit评估工具的集成与改进,为后续多模态推理研究提供了可复现的技术路径与比较标准。
以上内容由遇见数据集搜集并总结生成



