GENIUS

github2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/arctanxarc/GENIUS

下载链接

链接失效反馈

官方服务：

资源简介：

GENIUS是一个生成性流体智能评估套件，包含多个测试数据集，用于评估模型的生成能力。数据集分为多个维度，包括隐式模式、多语义、先验冲突、符号约束和视觉约束等。

GENIUS is a generative fluid intelligence assessment suite that includes multiple test datasets for evaluating the generative capabilities of models. These test datasets are categorized into several dimensions, including implicit patterns, multi-semantics, prior conflicts, symbolic constraints, visual constraints, etc.

创建时间：

2026-02-04

原始信息汇总

GENIUS: Generative Fluid Intelligence Evaluation Suite 数据集概述

数据集基本信息

数据集名称: GENIUS (Generative Fluid Intelligence Evaluation Suite)
发布日期: 2026年2月11日
许可证: CC-BY-NC 4.0 (仅限学术研究，禁止商业用途)
论文: https://arxiv.org/abs/2602.11144
数据集主页: https://huggingface.co/datasets/HankYang428/GENIUS

数据集描述

GENIUS是一个用于评估生成模型流体智力的基准测试套件。它旨在测试模型在多种复杂约束下的理解和生成能力。

数据集结构与内容

数据集包含五个核心评估维度（任务），每个维度对应一个独立的子目录和测试数据文件：

implicit_pattern (隐式模式)
multi_semantic (多语义)
prior_conflicting (先验冲突)
symbolic_constraint (符号约束)
visual_constraint (视觉约束)

每个子目录下包含一个 test_data.json 文件，其中包含测试样本。每个样本具有唯一的 id 标识符。

数据获取方式

数据集可通过以下平台下载：

Hugging Face: https://huggingface.co/datasets/HankYang428/GENIUS
Google Drive: https://drive.google.com/file/d/1NAE1nGbYOrvGvimzSCoDVNebvBdGdIpg/view?usp=drive_link
百度网盘: https://pan.baidu.com/s/1ON_ryhfzYHQNzex1gEjCGQ?pwd=iek1 (提取码: iek1)

评估流程与要求

模型输出组织: 评估要求将模型生成的图像按 outputs/<model_name>/<task_name>/{id}.png 的层级结构存放。{id} 必须与对应 test_data.json 文件中的 id 字段严格匹配。
评估脚本: 项目提供完整的评估代码，包括 eval.sh (入口脚本)、eval.py (主评估逻辑)、cal_score.py (评分脚本) 和 eval_prompt.py (提示管理)。
评估配置: 需要在 eval.sh 中配置API凭证（用于LMM-as-a-judge）并指定待评估的模型名称和评估维度。

引用信息

如需在学术工作中使用本数据集，请引用以下论文：

@misc{an2026geniusgenerativefluidintelligence, title={GENIUS: Generative Fluid Intelligence Evaluation Suite}, author={Ruichuan An and Sihan Yang and Ziyu Guo and Wei Dai and Zijun Shen and Haodong Li and Renrui Zhang and Xinyu Wei and Guopeng Li and Wenshan Wu and Wentao Zhang}, year={2026}, eprint={2602.11144}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.11144}, }

搜集汇总

数据集介绍

构建方式

在生成式人工智能快速发展的背景下，GENIUS数据集旨在系统评估模型的流体智能。其构建过程严谨，首先确立了五个核心评估维度，包括隐含模式理解与符号约束推理等，每个维度都针对人类认知中的特定推理能力。研究者们为每个维度精心设计了多样化的文本提示，这些提示蕴含了复杂的逻辑关系和先验知识冲突，并以此为基础生成了对应的标准测试数据。数据集的构建确保了任务在语义上的深度与广度，为衡量模型超越表面特征、进行深度推理的潜能提供了结构化基础。

特点

GENIUS数据集的核心特点在于其多维度的评估框架，它超越了传统的图像生成质量评价，深入探究模型的认知推理能力。数据集涵盖了从隐含模式识别到多语义融合等多个挑战性任务，每个任务都旨在测试模型处理新颖、非常规问题的流体智能。其测试项目设计精巧，往往包含视觉与符号的混合约束，或故意设置与常识相冲突的先验条件，从而能够有效区分模型是进行机械记忆还是真正的创造性推理。这种设计使得该数据集成为衡量生成模型高级认知能力的精准标尺。

使用方法

使用GENIUS数据集进行评估，需遵循其提供的标准化流程。用户首先从指定平台下载数据集，并按照规定的目录结构进行组织，确保模型生成的图像与测试数据中的唯一标识符严格对应。评估过程通过执行提供的脚本自动进行，该脚本会调用大型多模态模型作为评判员，对生成结果在五个预设维度上进行打分。用户需在配置文件中指定待评估的模型名称和API凭证，运行后即可获得一份关于模型流体智能的详细量化报告，整个过程高效且可复现。

背景与挑战

背景概述

在生成式人工智能迅猛发展的时代背景下，评估模型超越静态知识记忆、展现动态推理与创造性问题解决能力的流体智能，成为领域内亟待突破的核心议题。GENIUS（Generative Fluid Intelligence Evaluation Suite）基准套件应运而生，由来自北京大学、香港中文大学、阶跃星辰等机构的科研团队于2026年主导创建。该数据集旨在系统性地评估生成模型在复杂、开放场景下的高级认知能力，其核心研究问题聚焦于如何量化模型对隐含模式、多义语义、先验冲突等非确定性约束的理解与生成质量。GENIUS的提出，为衡量生成式模型的真正“智能”水平提供了严谨的标准化工具，推动了该领域从追求规模扩张向注重深度推理的范式转变，具有重要的学术影响力。

当前挑战

GENIUS数据集致力于解决生成式模型流体智能评估这一前沿领域的根本性挑战。其首要挑战在于如何精准定义并构建能够有效衡量模型动态推理与创造性思维能力的复杂任务，这超越了传统的图像分类或文本生成等单一维度评估。具体而言，数据集需要设计涵盖隐含模式识别、符号约束遵循、视觉约束融合、先验知识冲突化解以及多语义协同生成等多维度的评测场景，每一项都要求模型具备深度的场景理解和灵活的适应性。在构建过程中，挑战同样显著，包括如何确保评测任务的多样性与无偏性、如何设计可自动化的客观评分标准以替代主观人工评判，以及如何构建大规模、高质量且涵盖广泛认知维度的测试数据，这些都对数据集的科学严谨性与工程可行性提出了极高要求。

常用场景

经典使用场景

在生成式人工智能领域，评估模型的流体智能能力是核心挑战之一。GENIUS数据集通过构建涵盖隐含模式、符号约束、视觉约束、先验冲突与多语义理解五个维度的复杂任务，为研究者提供了一个系统性的基准测试平台。该数据集常用于评估多模态大模型在解决非结构化、开放式视觉生成问题中的表现，特别是在需要模型超越表面特征、进行深层推理与创造性组合的场景下。

衍生相关工作

围绕GENIUS数据集，已衍生出一系列关注生成模型高级认知能力评估的经典研究工作。这些工作不仅包括基于该基准对现有主流模型（如DALL-E、Stable Diffusion、Midjourney等）进行系统性能力测绘与排名，还催生了针对特定评估维度（如符号推理、抗先验偏见）的专项改进模型与训练策略。同时，GENIUS所倡导的“流体智能”评估理念，也激励了后续研究构建更多专注于模型推理、规划与创造性思维等高级认知功能的评估套件，共同丰富了生成式AI的评估生态系统。

数据集最近研究