FutureOmni

github2026-01-21 更新2026-01-22 收录

下载链接：

https://github.com/OpenMOSS/FutureOmni

下载链接

链接失效反馈

官方服务：

资源简介：

FutureOmni是首个专门评估从音频-视觉环境进行全模态未来预测的基准测试。它要求模型进行跨模态因果和时间推理，同时有效利用内部知识来预测未来事件。数据集包含919个视频和1,034个多项选择QA对，覆盖8个主要领域，所有视频均为原创，确保零污染。

FutureOmni is the first benchmark specifically designed to evaluate full-modality future prediction from audio-visual environments. It requires models to perform cross-modal causal and temporal reasoning, while effectively leveraging internal knowledge to predict future events. The dataset includes 919 videos and 1,034 multiple-choice QA pairs, covering 8 major domains. All videos are original, ensuring zero contamination.

创建时间：

2026-01-14

原始信息汇总

FutureOmni 数据集概述

数据集简介

FutureOmni 是首个专门评估多模态大语言模型（MLLMs）基于视听环境进行全模态未来预测能力的基准。该数据集旨在探索模型如何利用音频和视觉线索进行跨模态因果与时间推理，并有效结合内部知识来预测未来事件。

核心特征

首个全模态预测基准：专门评估模型基于视听因果逻辑预测未来状态的能力。
可扩展的构建流程：通过强大的LLM辅助、人机协同流程构建，确保高质量的因果对。
全面且原创：包含 919 个视频和 1,034 个多项选择问答对，涵盖 8 个主要领域。所有视频均为收集以确保 零污染（100% 原创视频率）。
具有挑战性的评估：对 13 个全模态 和 7 个纯视频 模型的评估表明，当前系统表现欠佳，尤其在语音密集场景中。
OFF 训练策略：提出了 全模态未来预测（OFF） 策略，并提供了一个 7K 样本的指令微调数据集，该策略能同时增强未来预测和通用感知能力。

数据规模与构成

视频数量：919
问答对数量：1,034
主要领域数量：8
音频类型：包含语音、声音、音乐等类别。

数据格式示例

每个标注文件条目格式如下： json { "id": 0, "question": "Given the premise event: The man repeatedly demonstrates a new rhythm pattern, playing the guitar on "One, two, three" and explicitly pausing on the "Four" count while vocally counting, which event is its most direct conclusion?", "options": [ "A. He continues to demonstrate the same pattern for several more minutes", "B. He stops playing the guitar and says Okay and I hope everyone understood.", "C. He introduces a completely different, more complex strumming pattern", "D. He puts down the guitar and begins to explain music theory concepts", "E. He asks the viewers to play along with him and checks their progress" ], "answer": "B", "original_video": "uu8c_EH8VPE.mp4", "split_point": 227, "video_domain": "education", "audio_type": "Sound", "forecasting_pattern": "Routine Sequences" }

模型性能概览（零样本准确率%）

模型	规模	语音	声音	音乐	平均
Gemini 3 Flash 🏆	-	60.52	67.13	68.31	64.80
Gemini 2.5 Pro	-	48.23	61.89	63.38	56.77
Qwen3-Omni	30B	47.99	55.44	57.54	53.05
Claude Haiku 4.5	-	55.56	64.00	43.82	51.52
Video-SALMONN 2	7B	40.28	48.95	54.15	47.00
Qwen2.5-Omni	7B	37.83	54.55	53.85	47.48
GPT-4o	-	54.41	59.80	45.05	52.29

数据获取与使用

测试数据：可从 HuggingFace (https://huggingface.co/datasets/Qiancccc/FutureOmni) 下载分割后的测试视频。
训练数据：可从 Google Drive (https://drive.google.com/drive/folders/1Ao7_nkRZCiwCxnE4bW72c9da-undpcaX?usp=sharing) 或百度网盘 (https://pan.baidu.com/s/1TnjFoE-NZBlRFPtebRiyfg?pwd=8jre) 下载训练视频。
评估代码：提供基于 DDP (eval/infer_ddp.py) 和 vLLM (eval/infer_vllm.py) 的实现。
特征提取：提供 feature/extract.py 用于加速输入特征预处理。
训练代码：适配代码位于 train/LLaMA-Factory。

引用

如果 FutureOmni 对您的研究有帮助，请引用我们的论文： bibtex @article{chen2026futureomni, title={FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs}, author={Chen, Qian and Fu, Jinlan and Li, Changsong, and Ng, See-Kiong and Qiu, Xipeng}, booktitle={arXiv}, year={2026} }

搜集汇总

数据集介绍

构建方式

在多媒体人工智能领域，构建能够评估模型未来预测能力的数据集具有重要价值。FutureOmni通过一种可扩展的构建流程实现，该流程结合了大型语言模型的辅助与人工参与的循环机制，确保了高质量的因果配对。具体而言，数据集涵盖了八个主要领域的九百一十九个视频，并生成了一千零三十四个多项选择题对，所有视频均为原创采集，实现了零污染率，从而为模型评估提供了纯净且结构化的基准。

使用方法

使用FutureOmni进行模型评估时，研究人员需首先从指定平台下载测试视频并提取至相应文件夹。评估过程支持分布式数据并行和vLLM两种实现方式，建议通过预处理输入特征以加速计算。对于训练目的，数据集提供了七千个样本的指令调优数据集，结合Omni-Modal Future Forecasting策略，可有效提升模型的未来预测及通用感知能力，相关代码已开源便于复现与扩展。

背景与挑战

背景概述

随着多模态大语言模型在跨模态感知任务中展现出卓越能力，其在基于视听线索预测未来事件方面的潜力尚未得到充分探索。FutureOmni数据集由OpenMOSS团队于2026年创建，旨在填补这一研究空白，成为首个专门评估全模态未来预测能力的基准。该数据集聚焦于模型如何整合音频与视觉信息，进行跨模态因果与时序推理，并有效利用内部知识来推断后续事件。其构建涵盖了教育、日常生活等八个核心领域，包含919个原创视频和1034对高质量因果问答对，为零样本评估与模型训练提供了坚实基础，推动了多模态推理向时序预测方向的拓展。

当前挑战

FutureOmni所针对的核心领域挑战在于，现有基准多集中于对已发生事件的回顾性理解，而缺乏对模型未来预测能力的系统评估。这要求模型不仅需具备跨模态融合能力，更要实现深层次的因果逻辑推断与时间序列建模。在数据集构建过程中，团队面临确保高质量因果关联的挑战，需通过大语言模型辅助与人机协同流程，从海量视频中精准提取事件前提与结论对。同时，保持视频的完全原创性以避免数据污染，并涵盖语音、声音、音乐等多样音频类型以增强泛化性，均为构建过程中的关键难点。

常用场景

经典使用场景

在多媒体人工智能领域，FutureOmni数据集作为首个专注于全模态未来预测的基准测试工具，其经典应用场景在于评估多模态大语言模型基于视听上下文进行因果与时间推理的能力。该数据集通过精心设计的视频片段与多选问答对，模拟真实世界中的动态事件序列，要求模型依据音频和视觉线索推断即将发生的合理结果，从而在学术实验中系统检验模型对跨模态时序逻辑的理解深度。

解决学术问题

FutureOmni有效应对了当前多模态研究中对前瞻性推理能力评估的缺失问题。传统基准多集中于对已发生内容的回顾性理解，而该数据集通过构建涵盖教育、日常活动等八个领域的原创视频与因果问答对，为量化模型在语音、声音、音乐等不同音频类型下的未来事件预测性能提供了标准化框架。其意义在于推动了多模态人工智能从静态感知向动态推演的范式转变，并为模型在复杂时序环境中的认知能力设立了新的评估维度。

实际应用

在实际应用层面，FutureOmni所针对的未来预测能力对构建更智能的交互系统具有重要价值。例如，在智能教育助理中，系统可通过分析教师演示节奏预测下一步教学动作；在家庭服务机器人场景下，模型能依据环境声响与视觉动态预判潜在风险或用户需求。这些应用均依赖于模型对跨模态时序因果关系的精准把握，而该数据集提供的评估体系与训练策略（如OFF方法）正为开发此类具备前瞻性推理能力的实用系统奠定了关键技术基础。

数据集最近研究