FysicsWorld
收藏FysicsWorld 数据集概述
数据集基本信息
- 数据集名称: FysicsWorld
- 发布机构: Fysics-AI
- 许可证: MIT License
- 主要语言: 英语 (en)
- 标签: 物理、理解、生成、推理、多模态
数据集简介
FysicsWorld 是首个统一的全模态基准测试,支持图像、视频、音频和文本之间的双向输入-输出,能够对理解、生成和推理进行全面的任意到任意评估。其系统化设计涵盖了从单模态感知任务到强跨模态耦合下的融合依赖推理,旨在以前所未有的清晰度诊断现代多模态和全模态架构的局限性与新兴优势。
核心特性与优势
-
多样性与高质量: 数据集具备“8个‘多’”属性,体现了其全面性、多样性和鲁棒性:
- 多维度: 理解、生成、推理、语音交互。
- 多模态: 文本、图像、视频、音频均可作为输入和输出。
- 多任务: 包含16个主要任务,200多个子任务。
- 多来源: 包含来自40多个数据源及精选网络数据的3,268个样本。
- 多领域: 覆盖170多个细粒度开放域类别。
- 多类型: 包含封闭式、开放式、多项选择题以及图像/视频/音频生成。
- 多目标: 评估全模态大语言模型、多模态大模型、特定模态模型、统一理解-生成模型。
- 多保证: 采用多阶段质量控制策略。
-
融合依赖的跨模态推理: 提出了名为跨模态互补性筛选的全模态数据构建方法,确保任务保持强跨模态耦合,防止单模态捷径,强制实现真正的全模态协同感知。
-
语音驱动的跨模态交互: 开发了基于语音的多模态数据构建流程,确保语音交互的语言流畅性和语义保真度,包含10多种真实的声音和语调。
数据集内容与结构
- 模态支持: 图像、视频、音频、文本。
- 任务类型: 理解、生成、推理。
- 样本数量: 3,268个样本。
- 数据来源: 40多个数据源及精选网络数据。
- 领域覆盖: 170多个细粒度开放域类别。
评估与使用
- 评估协议: 发布完整数据集时隐藏了标准答案,同时提供了一个包含答案的测试迷你子集用于本地验证和调试。
- 数据文件:
- 完整FysicsWorld数据位于
./data目录。 - 测试迷你子集位于
./test-mini目录。
- 完整FysicsWorld数据位于
- 使用流程:
- 从指定地址下载完整数据集。
- 使用模型对提供的问题进行推理。
- 按照要求的提交格式格式化模型响应。
- 将格式化后的响应发送至指定邮箱以在排行榜上更新分数。
相关资源链接
- 项目主页: https://github.com/Fysics-AI/FysicsWorld
- 论文: https://arxiv.org/pdf/2512.12756
- 数据集: https://huggingface.co/datasets/Fysics-AI/FysicsWorld
- ModelScope: https://www.modelscope.cn/datasets/Fysics-AI/FysicsWorld
- 排行榜: https://huggingface.co/spaces/Fysics-AI/FysicsWorld-Leaderboard
- 中文版README: README_zh.md
引用信息
如果FysicsWorld对您的研究有帮助,请考虑引用: bibtex @article{jiang2025fysicsworld, title={FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning}, author={Jiang, Yue and Yang, Dingkang and Han, Minghao and Han, Jinghang and Chen, Zizhi and Liu, Yizhou and Li, Mingcheng and Zhai, Peng and Zhang, Lihua}, journal={arXiv preprint arXiv:2512.12756}, year={2025} }




