FysicsWorld

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/Fysics-AI/FysicsWorld

下载链接

链接失效反馈

官方服务：

资源简介：

FysicsWorld是第一个支持图像、视频、音频和文本双向输入输出的统一全模态基准，能够全面评估理解、生成和推理的任意到任意任务。该数据集具有多样性和高质量，涵盖8个“多”特性：多维度（理解、生成、推理、语音交互）、多模态（文本、图像、视频、音频作为输入和输出）、多任务（16个主要任务，200+子任务）、多源（来自40+数据源和精选网络数据的3,268个样本）、多领域（170+细粒度开放域类别）、多类型（封闭式、开放式、多选题和图像/视频/音频生成）、多目标（评估Omni-LLMs、MLLMs、模态特定模型、统一理解-生成模型）和多保障（多阶段质量控制策略）。此外，FysicsWorld还提出了融合依赖的跨模态推理和语音驱动的跨模态交互方法。

创建时间：

2025-12-15

原始信息汇总

FysicsWorld 数据集概述

数据集基本信息

数据集名称: FysicsWorld
发布机构: Fysics-AI
许可证: MIT License
主要语言: 英语 (en)
标签: 物理、理解、生成、推理、多模态

数据集简介

FysicsWorld 是首个统一的全模态基准测试，支持图像、视频、音频和文本之间的双向输入-输出，能够对理解、生成和推理进行全面的任意到任意评估。其系统化设计涵盖了从单模态感知任务到强跨模态耦合下的融合依赖推理，旨在以前所未有的清晰度诊断现代多模态和全模态架构的局限性与新兴优势。

核心特性与优势

多样性与高质量: 数据集具备“8个‘多’”属性，体现了其全面性、多样性和鲁棒性：
- 多维度: 理解、生成、推理、语音交互。
- 多模态: 文本、图像、视频、音频均可作为输入和输出。
- 多任务: 包含16个主要任务，200多个子任务。
- 多来源: 包含来自40多个数据源及精选网络数据的3,268个样本。
- 多领域: 覆盖170多个细粒度开放域类别。
- 多类型: 包含封闭式、开放式、多项选择题以及图像/视频/音频生成。
- 多目标: 评估全模态大语言模型、多模态大模型、特定模态模型、统一理解-生成模型。
- 多保证: 采用多阶段质量控制策略。
融合依赖的跨模态推理: 提出了名为跨模态互补性筛选的全模态数据构建方法，确保任务保持强跨模态耦合，防止单模态捷径，强制实现真正的全模态协同感知。
语音驱动的跨模态交互: 开发了基于语音的多模态数据构建流程，确保语音交互的语言流畅性和语义保真度，包含10多种真实的声音和语调。

数据集内容与结构

模态支持: 图像、视频、音频、文本。
任务类型: 理解、生成、推理。
样本数量: 3,268个样本。
数据来源: 40多个数据源及精选网络数据。
领域覆盖: 170多个细粒度开放域类别。

评估与使用

评估协议: 发布完整数据集时隐藏了标准答案，同时提供了一个包含答案的测试迷你子集用于本地验证和调试。
数据文件:
- 完整FysicsWorld数据位于 ./data 目录。
- 测试迷你子集位于 ./test-mini 目录。
使用流程:
1. 从指定地址下载完整数据集。
2. 使用模型对提供的问题进行推理。
3. 按照要求的提交格式格式化模型响应。
4. 将格式化后的响应发送至指定邮箱以在排行榜上更新分数。

引用信息

如果FysicsWorld对您的研究有帮助，请考虑引用： bibtex @article{jiang2025fysicsworld, title={FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning}, author={Jiang, Yue and Yang, Dingkang and Han, Minghao and Han, Jinghang and Chen, Zizhi and Liu, Yizhou and Li, Mingcheng and Zhai, Peng and Zhang, Lihua}, journal={arXiv preprint arXiv:2512.12756}, year={2025} }

搜集汇总

数据集介绍

构建方式

在构建多模态人工智能评估体系的背景下，FysicsWorld数据集通过一种名为跨模态互补性筛选（CMCS）的策略进行构建，该方法旨在确保任务间存在强跨模态耦合，有效避免了单一模态的捷径效应，从而强制模型实现真正的全模态协同感知。其数据源汇集了来自超过40个不同渠道的3,268个样本，并辅以基于语音的多模态数据构建流程，该流程保证了语音交互的语言流畅性与语义保真度，最终形成了一个覆盖理解、生成与推理的综合性评估框架。

特点

FysicsWorld数据集的核心特征体现在其“八多”属性上，即多维度、多模态、多任务、多来源、多领域、多类型、多目标与多保障。它首次统一支持图像、视频、音频和文本在输入与输出上的任意组合，实现了真正的“任意到任意”评估。数据集涵盖了16个主要任务和超过200个子任务，涉及170多个细粒度开放域类别，其设计不仅评估通用多模态大模型，也面向特定模态模型及统一的理解-生成模型，展现了前所未有的覆盖广度与评估深度。

使用方法

为推进全模态人工智能的系统性评估，研究者可遵循标准流程使用本数据集。首先从指定平台下载包含全部多媒体文件的完整数据集。随后，使用待评估模型对数据集中的问题进行推理。接下来，将模型的输出响应按照官方提供的提交格式进行规范化处理。最后，将格式化后的结果发送至指定邮箱，即可参与官方定期更新的排行榜评估。数据集同时提供了一个包含答案的测试子集，便于研究者在本地进行验证与调试。

背景与挑战

背景概述

随着人工智能向通用模态智能演进，构建能够无缝处理文本、图像、视频与音频的全模态基准成为关键需求。FysicsWorld数据集由Fysics-AI团队于2025年12月发布，作为首个支持图像、视频、音频与文本间任意双向输入输出的统一全模态基准，旨在全面评估模型在理解、生成与推理任务上的跨模态能力。该数据集涵盖16项主任务与200余项子任务，汇集了来自40多个数据源的3268个高质量样本，覆盖170余个细粒度开放域类别，其核心研究问题在于推动模型实现真正协同的全模态感知与推理，为下一代全模态架构的发展提供了重要评估基础与方向指引。

当前挑战

FysicsWorld致力于解决全模态人工智能中任意模态间理解、生成与推理的综合性评估挑战，其核心在于克服传统多模态基准中模态割裂与任务单一的局限，要求模型在强跨模态耦合下进行融合依赖的推理，避免单一模态捷径。在构建过程中，研究团队面临确保跨模态数据互补性与语义一致性的难题，为此提出了跨模态互补性筛选策略，以维持任务间的强耦合关系；同时，构建支持自然语音交互的多模态数据亦需兼顾语言流畅度与语义保真度，涉及十余种真实语音与语调的合成与对齐，这些挑战共同塑造了数据集的复杂性与前沿性。

常用场景

经典使用场景

在人工智能与物理交叉领域，FysicsWorld数据集作为首个支持图像、视频、音频与文本间任意双向输入输出的全模态基准，其经典使用场景在于全面评估多模态模型的感知、生成与推理能力。该数据集通过设计涵盖单模态感知到强跨模态耦合的融合依赖推理任务，为研究者提供了一个系统化的测试平台，用以诊断现代多模态与全模态架构的局限性与新兴优势，尤其在需要协同处理多种信息形式的复杂物理场景中展现出重要价值。

解决学术问题

FysicsWorld数据集致力于解决多模态人工智能研究中长期存在的关键学术问题，包括如何有效评估模型在跨模态理解与生成中的真实协同能力，以及如何避免单一模态的捷径学习。通过引入跨模态互补性筛选策略，该数据集确保了任务间的强耦合性，从而推动了对全模态感知机制的深入探索。其意义在于为下一代能够实现真正整体感知、推理与交互的架构提供了评估基础与研究路线图，显著促进了多模态融合理论的发展。

衍生相关工作

围绕FysicsWorld数据集，已衍生出一系列相关的经典研究工作，主要集中在全模态大语言模型、多模态大模型以及统一的理解-生成模型的性能评估与能力分析上。该数据集建立的统一基准催生了针对不同模型架构在跨模态任务上表现的系统性比较研究，揭示了各类模型在图像中心、视频中心及音频推理等任务上的能力差距。这些工作不仅深化了对现有模型局限性的认识，也为未来面向全模态感知的模型设计与优化指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集