FutureOmni
收藏FutureOmni 数据集概述
数据集简介
FutureOmni 是首个专门评估多模态大语言模型(MLLMs)基于视听环境进行全模态未来预测能力的基准。该数据集旨在探索模型如何利用音频和视觉线索进行跨模态因果与时间推理,并有效结合内部知识来预测未来事件。
核心特征
- 首个全模态预测基准:专门评估模型基于视听因果逻辑预测未来状态的能力。
- 可扩展的构建流程:通过强大的LLM辅助、人机协同流程构建,确保高质量的因果对。
- 全面且原创:包含 919 个视频和 1,034 个多项选择问答对,涵盖 8 个主要领域。所有视频均为收集以确保 零污染(100% 原创视频率)。
- 具有挑战性的评估:对 13 个全模态 和 7 个纯视频 模型的评估表明,当前系统表现欠佳,尤其在语音密集场景中。
- OFF 训练策略:提出了 全模态未来预测(OFF) 策略,并提供了一个 7K 样本的指令微调数据集,该策略能同时增强未来预测和通用感知能力。
数据规模与构成
- 视频数量:919
- 问答对数量:1,034
- 主要领域数量:8
- 音频类型:包含语音、声音、音乐等类别。
数据格式示例
每个标注文件条目格式如下: json { "id": 0, "question": "Given the premise event: The man repeatedly demonstrates a new rhythm pattern, playing the guitar on "One, two, three" and explicitly pausing on the "Four" count while vocally counting, which event is its most direct conclusion?", "options": [ "A. He continues to demonstrate the same pattern for several more minutes", "B. He stops playing the guitar and says Okay and I hope everyone understood.", "C. He introduces a completely different, more complex strumming pattern", "D. He puts down the guitar and begins to explain music theory concepts", "E. He asks the viewers to play along with him and checks their progress" ], "answer": "B", "original_video": "uu8c_EH8VPE.mp4", "split_point": 227, "video_domain": "education", "audio_type": "Sound", "forecasting_pattern": "Routine Sequences" }
模型性能概览(零样本准确率%)
| 模型 | 规模 | 语音 | 声音 | 音乐 | 平均 |
|---|---|---|---|---|---|
| Gemini 3 Flash 🏆 | - | 60.52 | 67.13 | 68.31 | 64.80 |
| Gemini 2.5 Pro | - | 48.23 | 61.89 | 63.38 | 56.77 |
| Qwen3-Omni | 30B | 47.99 | 55.44 | 57.54 | 53.05 |
| Claude Haiku 4.5 | - | 55.56 | 64.00 | 43.82 | 51.52 |
| Video-SALMONN 2 | 7B | 40.28 | 48.95 | 54.15 | 47.00 |
| Qwen2.5-Omni | 7B | 37.83 | 54.55 | 53.85 | 47.48 |
| GPT-4o | - | 54.41 | 59.80 | 45.05 | 52.29 |
数据获取与使用
- 测试数据:可从 HuggingFace (https://huggingface.co/datasets/Qiancccc/FutureOmni) 下载分割后的测试视频。
- 训练数据:可从 Google Drive (https://drive.google.com/drive/folders/1Ao7_nkRZCiwCxnE4bW72c9da-undpcaX?usp=sharing) 或百度网盘 (https://pan.baidu.com/s/1TnjFoE-NZBlRFPtebRiyfg?pwd=8jre) 下载训练视频。
- 评估代码:提供基于 DDP (
eval/infer_ddp.py) 和 vLLM (eval/infer_vllm.py) 的实现。 - 特征提取:提供
feature/extract.py用于加速输入特征预处理。 - 训练代码:适配代码位于
train/LLaMA-Factory。
引用
如果 FutureOmni 对您的研究有帮助,请引用我们的论文: bibtex @article{chen2026futureomni, title={FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs}, author={Chen, Qian and Fu, Jinlan and Li, Changsong, and Ng, See-Kiong and Qiu, Xipeng}, booktitle={arXiv}, year={2026} }




