FLUX-Reason-6M

github2025-09-12 更新2025-09-13 收录

下载链接：

https://github.com/rongyaofang/prism-bench

下载链接

链接失效反馈

官方服务：

资源简介：

FLUX-Reason-6M是一个600万规模的合成数据集，旨在将推理能力融入文本到图像生成的架构中。

FLUX-Reason-6M is a 6-million-scale synthetic dataset designed to integrate reasoning capabilities into text-to-image generation architectures.

创建时间：

2025-09-11

原始信息汇总

PRISM Benchmark & FLUX-Reason-6M 数据集概述

数据集简介

FLUX-Reason-6M：一个包含600万样本的合成数据集，旨在增强文本到图像（T2I）生成架构的推理能力。
PRISM-Bench：一个全面且具有区分性的基准测试，包含7个独立轨道，与人类判断密切对齐。

数据集详情

规模：600万样本
设计目的：将推理能力融入T2I生成架构
基准测试轨道：7个独立轨道

评估方法

数据组织

图像数据需按以下目录结构组织：

images ├── imagination ├── entity ├── text_rendering ├── style ├── affection ├── composition └── long_text

评估脚本

PRISM-Bench评估

使用GPT-4.1： sh python evaluation/eval_gpt41.py --image_path <图像数据路径> --api_key <OpenAI API密钥> --base_url <OpenAI基础URL>
使用Qwen2.5-VL-72B： sh python evaluation/eval_qwen25.py --image_path <图像数据路径> --model_path <模型路径> --output_dir <结果保存路径>

PRISM-Bench-ZH评估

使用GPT-4.1： sh python evaluation/eval_gpt41.py --image_path <图像数据路径> --api_key <OpenAI API密钥> --base_url <OpenAI基础URL> --zh
使用Qwen2.5-VL-72B： sh python evaluation/eval_qwen25.py --image_path <图像数据路径> --model_path <模型路径> --output_dir <结果保存路径> --zh

排行榜

PRISM-Bench(GPT4.1)：包含19个模型的详细评分
PRISM-Bench(Qwen2.5-VL)：包含19个模型的详细评分
PRISM-Bench-ZH(GPT4.1)：包含7个模型的详细评分
PRISM-Bench-ZH(Qwen2.5-VL)：包含7个模型的详细评分

更新日志

2024-09-12：论文在arXiv发布
2025-09-12：FLUX-Reason-6M数据集在Huggingface发布

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，FLUX-Reason-6M数据集的构建采用了大规模合成方法，通过精心设计的推理机制生成六百万条高质量样本。该过程深度融合了多模态理解与生成技术，确保每条数据均蕴含复杂的语义推理链条，从而有效增强模型在文本引导下的图像生成能力。数据集覆盖了实体、风格、情感等多个维度，为训练提供了丰富且多样化的语义素材。

特点

FLUX-Reason-6M的核心特点在于其规模宏大且结构精细，包含六百万条样本，并划分为七个独立评估轨道，如想象力、实体渲染、文本呈现等。每个轨道均针对特定的生成能力进行设计，能够全面评估模型在不同语义场景下的表现。数据集强调与人类判断的高度一致性，兼具美观性（Aesthetic）与对齐性（Alignment）的双重评估标准，为研究提供了可靠且多维度的基准。

使用方法

该数据集的使用主要通过PRISM-Bench评估框架实现，支持多种先进模型如GPT-4.1和Qwen2.5-VL-72B进行自动化评测。用户需按照指定结构组织图像数据，并通过命令行工具调用相应评估脚本，同时可选择中文或英文模式。评估结果涵盖整体及各轨道的得分，为模型优化和比较提供详细且可量化的性能指标，助力文本到图像生成技术的进一步发展。

背景与挑战

背景概述

FLUX-Reason-6M数据集由香港中文大学、香港大学、北京航空航天大学、阿里巴巴及商汤科技等机构联合研发，于2024年9月正式发布。该数据集聚焦于文本到图像生成领域的推理能力增强，旨在解决多模态模型中复杂语义理解与视觉生成的协同问题。通过构建规模达六百万的合成数据，该数据集推动了生成式人工智能在逻辑推理、场景构建和跨模态对齐方面的研究进展，为后续模型训练与评估提供了重要基础。

当前挑战

该数据集核心挑战在于提升文本到图像生成中的深层推理能力，需解决复杂指令的语义解析、多元素空间关系建模以及长文本描述的视觉化表达等问题。构建过程中面临合成数据质量控制的难题，包括生成样本的多样性平衡、噪声过滤以及跨语言场景下的文化适配性。此外，评估体系需覆盖对齐度、美学质量等多维指标，并需克服大规模数据标注的一致性与可扩展性瓶颈。

常用场景

解决学术问题

FLUX-Reason-6M有效解决了文本到图像生成中语义对齐与推理能力不足的核心学术问题。传统模型往往在长文本理解、多元素组合和抽象概念可视化方面存在局限，该数据集通过大规模高质量样本填补了这一空白。其意义在于推动了生成模型从低级特征匹配向高级认知推理的转变，为多模态人工智能的理论发展提供了坚实的数据支撑，促进了学术界对视觉-语言交互机制的深入探索。

衍生相关工作

基于FLUX-Reason-6M数据集衍生出了PRISM-Bench基准测试体系，包括中英文双语的七维度评估框架。该基准催生了诸如GPT-Image-1、Gemini2.5-Flash-Image和Qwen-Image等先进模型的迭代优化，并推动了Bagel-CoT、SEEDream 3.0等项目的推理机制创新。这些工作共同构建了文本到图像生成领域的标准化评估生态，为后续研究提供了可复现的性能对比体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集