FysicsWorld

github2025-12-16 更新2025-12-17 收录

下载链接：

https://github.com/Fysics-AI/FysicsWorld

下载链接

链接失效反馈

官方服务：

资源简介：

FysicsWorld是第一个统一的全模态基准测试数据集，支持图像、视频、音频和文本之间的双向输入输出，用于全面的任何到任何评估，包括理解、生成和推理。它具有多样性、高质量、融合依赖的跨模态推理和语音驱动的跨模态交互等特点。

FysicsWorld is the first unified all-modal benchmark dataset that supports bidirectional input and output among images, videos, audios and texts, designed for comprehensive any-to-any evaluation covering understanding, generation and reasoning. It features diversity, high quality, fusion-dependent cross-modal reasoning, speech-driven cross-modal interaction, and other characteristics.

创建时间：

2025-12-14

原始信息汇总

FysicsWorld 数据集概述

数据集基本信息

数据集名称：FysicsWorld
核心定位：首个支持图像、视频、音频和文本之间双向输入输出的统一全模态基准。
主要目标：支持全面的任意模态到任意模态的评估，涵盖理解、生成和推理。

数据集核心特性

多样性：具备8个“多”属性，即多维度、多模态、多任务、多来源、多领域、多类型、多目标、多保证。
模态覆盖：支持文本、图像、视频、音频作为输入和输出。
任务规模：包含16个主要任务和200多个子任务。
数据构成：包含3，268个样本，来源于40多个数据源及精选的网络数据。
任务类型：涵盖封闭式、开放式、多项选择题以及图像/视频/音频生成。
评估目标：评估全能大语言模型、多模态大模型、特定模态模型以及统一的理解-生成模型。

关键技术亮点

融合依赖的跨模态推理：采用跨模态互补性筛选策略，确保任务保持强跨模态耦合，防止单模态捷径，强制实现真正的全模态协同感知。
语音驱动的跨模态交互：开发了基于语音的多模态数据构建流程，确保语音交互的语言流畅性和语义保真度，包含20多种真实声音和语调。

数据获取与评估

数据集下载地址：https://huggingface.co/datasets/Fysics-AI/FysicsWorld
评估数据：
- 完整数据集（答案隐藏）位于 ./data 目录。
- 用于本地验证和调试的测试子集（300个样本，含答案）位于 ./test-mini 目录。
提交与评估：用户需按照指定格式提交模型响应至 t1.jiangyue@outlook.com，结果将定期更新于排行榜。

引用信息

若使用本数据集，请引用： bibtex @article{jiang2025fysicsworld, title={FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning}, author={Jiang, Yue and Yang, Dingkang and Han, Minghao and Han, Jinghang and Chen, Zizhi and Liu, Yizhou and Li, Mingcheng and Zhai, Peng and Zhang, Lihua}, journal={arXiv preprint arXiv:2512.12756}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能迈向全模态感知的时代，FysicsWorld数据集通过创新的跨模态互补筛选策略进行构建，确保了任务间强烈的跨模态耦合。该策略有效避免了单一模态的捷径，强制模型实现真正的多模态协同感知。数据集整合了来自四十余个数据源及精选网络数据的三千余个样本，覆盖图像、视频、音频与文本四种模态，并构建了基于语音的多模态数据生成流程，保证了语音交互的语言流畅性与语义保真度。

特点

FysicsWorld作为首个支持图像、视频、音频与文本双向输入输出的统一全模态基准，其核心特征体现在八个“多”属性上。它具备多维度、多模态、多任务、多来源、多领域、多类型、多目标与多保障的全面覆盖性。数据集包含十六个主要任务与超过两百个子任务，涉及一百七十余个细粒度开放域类别，旨在评估从Omni-LLMs到统一理解-生成模型在内的多种架构，为诊断现代多模态系统的能力边界提供了前所未有的清晰度。

使用方法

为利用FysicsWorld进行模型评估，研究者需从指定平台下载完整数据集，其中包含多媒体文件及问题数据。模型在给定问题上完成推理后，需按照规定的提交格式整理输出结果。数据集提供了包含答案的测试子集以供本地验证，完整的评估结果可通过提交至指定邮箱，由官方团队定期在排行榜上更新。这一流程确保了评估的公平性与标准化，为全模态架构的能力演进提供了可靠的衡量基准。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态理解与生成能力成为关键瓶颈。FysicsWorld数据集于2025年由Fysics-AI团队发布，作为首个支持图像、视频、音频与文本间任意双向输入输出的统一全模态基准。其核心研究旨在系统评估模型在跨模态理解、生成与推理方面的综合能力，突破现有基准在模态耦合与任务多样性上的局限。该数据集通过精心设计的任务架构与高质量数据源，为诊断现代多模态及全模态模型的性能边界提供了前所未有的清晰视角，对推动下一代全模态架构的发展具有奠基性影响。

当前挑战

FysicsWorld致力于解决全模态人工智能中任意模态间理解、生成与推理的综合性评估难题，其核心挑战在于设计能够强制模型进行深度融合而非依赖单模态捷径的任务。在构建过程中，团队面临多重挑战：首先，需确保跨模态数据的强耦合性，为此提出了跨模态互补性筛选策略，以消除任务中的单模态可解性；其次，在整合来自40余个数据源的数千个样本时，需维持多领域、多任务框架下的数据一致性与高质量，并实施多阶段质量控制；此外，构建支持自然语音交互且保持语义保真度的语音驱动多模态数据流水线，亦是一项复杂工程。

常用场景

经典使用场景

在人工智能多模态研究领域，FysicsWorld数据集作为首个支持图像、视频、音频与文本间任意双向输入输出的统一全模态基准，其经典使用场景在于全面评估模型在跨模态理解、生成与推理任务中的综合能力。该数据集通过涵盖16项主要任务与200余项子任务，为研究者提供了一个系统性的测试平台，用以深入探究模型在融合依赖的跨模态推理情境下的表现，尤其是在避免单一模态捷径、实现真正协同感知方面的潜力。

解决学术问题

FysicsWorld数据集有效解决了多模态人工智能研究中长期存在的基准分散与评估不统一问题。它通过引入跨模态互补性筛选策略，确保了任务间具有强跨模态耦合性，从而能够精准诊断现代多模态与全模态架构在感知融合与推理协同方面的局限性。该数据集为学术界提供了首个覆盖全模态任意到任意交互的标准化评估框架，显著推动了对于模型在复杂跨模态环境下理解、生成与推理能力的系统性研究。

衍生相关工作

基于FysicsWorld数据集，已衍生出一系列针对全模态架构能力评估的经典研究工作。这些工作主要聚焦于对比分析全能大语言模型、多模态大模型、特定模态模型以及统一理解-生成模型在该基准上的性能差异，从而揭示不同架构设计在跨模态任务中的优势与短板。相关研究不仅深化了对于模型跨模态融合机制的理解，也为设计更高效、更鲁棒的全模态人工智能系统提供了明确的技术路线图与改进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集