GENIUS (GENerative Fluid Intelligence EvalUation Suite)

Name: GENIUS (GENerative Fluid Intelligence EvalUation Suite)
Creator: 北京大学; 香港中文大学; StepFun; 香港理工大学; 微软亚洲研究院
Published: 2026-02-12 02:55:54
License: 暂无描述

arXiv2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/arctanxarc/GENIUS

下载链接

链接失效反馈

官方服务：

资源简介：

GENIUS是由多机构联合开发的生成式流体智能评估套件，包含510条专家精心设计的样本，涵盖隐式模式归纳、临时约束执行和上下文知识适应三大维度。数据集通过多模态交错上下文构建，严格解耦静态知识以量化模型在新颖场景中的动态推理能力。其样本覆盖20个子任务，如视觉隐喻生成和反常识物理模拟等，旨在推动统一多模态模型从知识利用向通用推理的跨越。

GENIUS is a generative fluid intelligence evaluation suite co-developed by multiple institutions. It contains 510 expert-curated samples covering three core dimensions: implicit pattern induction, temporal constraint enforcement, and contextual knowledge adaptation. The dataset is constructed via interleaved multimodal contexts, with static knowledge strictly decoupled to quantify the dynamic reasoning capabilities of models in novel scenarios. Its samples cover 20 subtasks including visual metaphor generation and counter-intuitive physics simulation, aiming to promote the transition of unified multimodal models from knowledge utilization to general reasoning.

提供机构：

北京大学; 香港中文大学; StepFun; 香港理工大学; 微软亚洲研究院

创建时间：

2026-02-12

原始信息汇总

GENIUS 数据集概述

数据集基本信息

数据集名称：GENIUS (Generative Fluid Intelligence Evaluation Suite)
发布年份：2026年
论文链接：https://arxiv.org/abs/2602.11144
数据集主页：https://huggingface.co/datasets/HankYang428/GENIUS
许可证：CC-BY-NC 4.0 (仅限学术研究，禁止商业用途)

数据集描述

GENIUS 是一个用于评估生成式流体智能的基准测试套件。该数据集旨在评估模型在多种复杂约束下的图像生成能力。

数据集结构与内容

数据集包含五个核心测试维度：

隐含模式 (implicit_pattern)
多语义 (multi_semantic)
先验冲突 (prior_conflicting)
符号约束 (symbolic_constraint)
视觉约束 (visual_constraint)

每个维度对应一个独立的子目录，其中包含 test_data.json 文件，该文件存储了测试样本的ID和提示词等信息。

数据获取方式

数据集可通过以下平台获取：

Hugging Face：https://huggingface.co/datasets/HankYang428/GENIUS
Google Drive：https://drive.google.com/file/d/1NAE1nGbYOrvGvimzSCoDVNebvBdGdIpg/view?usp=drive_link
百度网盘：https://pan.baidu.com/s/1ON_ryhfzYHQNzex1gEjCGQ?pwd=iek1 (提取码：iek1)

评估方法

评估流程要求用户将模型生成的图像按指定目录结构放置（outputs/<model_name>/<task_name>/{id}.png），然后运行提供的评估脚本。评估使用大语言模型作为评判者（LMM-as-a-judge），需要配置相应的API凭证。

相关资源

代码仓库：https://github.com/arctanxarc/GENIUS
项目博客：https://chawuciren11.github.io/GENIUS/
联系邮箱：arctanxarc@gmail.com
问题反馈：https://github.com/arctanxarc/GENIUS/issues

搜集汇总

数据集介绍

构建方式

在统一多模态模型快速发展的背景下，GENIUS数据集的构建旨在填补生成性流体智能评估的理论与实践空白。该数据集严格依据Cattell-Horn-Carroll认知理论，将生成性流体智能解构为三个核心维度：隐性模式归纳、临时约束执行与情境知识适应。通过专家人工精心策划，共构建了510个高质量测试样本，涵盖5项主要任务与20个子任务。每个样本均采用多模态交错上下文设计，确保移除任一模态均会导致任务无法解决，从而纯粹评估模型在新颖、动态规则下的推理与适应能力，而非依赖预训练知识的回忆。

特点

GENIUS数据集的核心特点在于其专注于评估生成性流体智能，与传统侧重结晶化智能的基准形成鲜明对比。数据集通过多图像输入与交错的多模态上下文，要求模型在即时情境中归纳模式、执行抽象约束并适应反常识知识。其评估体系采用混合指标，包括规则遵循度、视觉一致性与美学质量，并辅以人工标注的评估提示作为黄金标准，确保了评估的严谨性与可靠性。此外，所有样本均经过多轮交叉验证，避免了静态知识干扰，为模型在动态、通用推理能力上的缺陷提供了清晰的诊断视角。

使用方法

GENIUS数据集的使用旨在系统评估统一多模态模型在生成性流体智能方面的表现。研究人员可利用该数据集对模型进行多维度测试，涵盖隐性模式生成、符号与视觉约束生成、先验冲突生成及多语义生成等任务。评估时，需遵循数据集中提供的混合评估协议，利用前沿大型多模态模型作为评判者，结合人工标注的评估提示对生成结果进行规则遵循度、视觉一致性与美学质量的量化评分。数据集支持交错与解耦两种输入格式，以适应不同模型的架构特点，并通过严格的统计分析揭示模型在上下文理解与生成执行之间的差距，为后续模型优化提供明确方向。

背景与挑战

背景概述

随着统一多模态模型在视觉生成领域取得显著进展，现有评估基准主要聚焦于依赖累积知识回忆的晶体智力，而忽视了生成流体智力——即模型在即时情境中归纳模式、推理约束并适应新场景的核心能力。为系统评估这一能力，研究团队于2026年2月正式发布了GENIUS基准套件。该数据集由北京大学、香港中文大学等机构联合构建，通过510个专家精心设计的测试样本，从隐性模式归纳、即时约束执行和情境知识适应三个维度，首次为生成流体智力建立了严谨的量化标准。GENIUS的提出填补了多模态生成模型在动态推理能力评估方面的理论空白，为探索通用人工智能提供了新的研究方向。

当前挑战

GENIUS数据集致力于解决生成流体智力评估的核心挑战，其首要任务在于突破传统基准对静态知识检索的依赖，构建能够纯粹衡量模型在全新情境下归纳与推理能力的评估体系。在构建过程中，研究团队面临多重技术难题：如何设计严格解耦先验知识的测试样本，确保评估结果不受训练数据记忆效应干扰；如何创建多模态交错语境，使得移除任一模态都会导致任务无法求解；以及如何建立兼顾规则遵循性、视觉一致性与美学质量的混合评估指标。这些挑战共同指向当前多模态生成模型在动态适应与逻辑推理方面的本质缺陷，揭示了模型在表面美学质量掩盖下的深层认知局限。

常用场景

经典使用场景

在统一多模态模型（UMMs）的评估领域，GENIUS数据集被广泛用于系统性地量化模型的生成性流体智能（GFI）。其经典使用场景聚焦于评估模型在完全脱离预训练知识的全新情境下，执行归纳推理、动态约束执行和情境知识适应的能力。具体而言，研究者通过数据集精心设计的510个专家标注样本，涵盖隐性模式归纳、临时约束执行和情境知识适应三个维度，要求模型根据交错的图文上下文即时推断并生成符合特定规则的视觉内容，例如从用户偏好中归纳视觉风格，或根据临时定义的抽象符号规则生成图像。这一场景严格剥离了晶体智能的干扰，纯粹考察模型应对新颖、动态问题的核心推理与生成能力。

解决学术问题

GENIUS数据集主要解决了多模态生成模型评估中长期存在的三个关键学术问题。首先，它填补了生成性流体智能（GFI）理论定义的空缺，为超越静态知识利用、迈向动态通用推理的模型发展提供了理论基础。其次，它突破了现有基准测试过度依赖晶体智能（即记忆与检索能力）的局限，通过设计完全基于即时上下文的动态任务，实现了对模型真正推理边界的纯净探测。最后，数据集通过系统的诊断分析，揭示了模型失败的根本原因并非内在生成能力不足，而是对复杂交错上下文的理解存在缺陷。这为理解模型在逻辑约束与先验知识冲突下的行为机制提供了关键见解，推动了评估范式从表面视觉质量向深层逻辑一致性的根本转变。

衍生相关工作

GENIUS数据集的提出，衍生并激励了一系列围绕提升多模态模型流体智能的经典研究工作。其核心理论框架——将情境学习视为隐式微调，并建立注意力机制与隐式梯度更新之间的数学关联，为后续的模型干预策略提供了理论基础。基于此，研究者们探索了多种无需训练的机制来校准模型的注意力分布，以抑制噪声令牌的干扰，从而更有效地利用上下文信号。此外，数据集揭示的“理解与执行之间的鸿沟”现象，也促使后续研究关注如何加强多模态编码器与生成解码器之间的信息传递效率，以解决模型“知而不能绘”的瓶颈。这些工作共同推动了社区从单纯追求生成质量，转向构建具备深度上下文理解和逻辑遵从能力的通用多模态生成系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集