IlluGenBench

Name: IlluGenBench
Creator: FreedomAI
Published: 2026-02-11 13:58:13
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/IlluGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

IlluGenBench 是一个专注于医学插图生成任务的基准数据集，包含 296 个任务和 9,015 个独特的评分标准，旨在反映真实的医学插图生成场景。该数据集用于评估文本到图像生成模型在医学领域的表现，覆盖科学准确性、结构正确性和语义对齐三个维度。数据集适用于文本生成和文本到图像任务，主要语言为英语，规模小于 1K 样本。评估结果显示，商业模型在此任务上普遍优于开源模型，其中 Gemini-3-Pro-Image 以 0.873 的平均分表现最佳。

提供机构：

FreedomAI

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在医学可视化领域，高质量插图的生成对临床教学与科研至关重要。IlluGenBench的构建过程围绕真实医学插图生成场景展开，精心设计了涵盖五个类别的296项生成任务。每个任务均配备了细粒度的评估准则，共计9,015条独特的评分标准，确保能够从科学准确性、结构正确性及语义对齐三个维度对生成结果进行全面衡量。该数据集的构建旨在为文本到图像生成模型提供一个严谨且贴近实际应用的医学专业评估基准。

特点

IlluGenBench的核心特征在于其高度的专业性与细致的评估体系。数据集聚焦于医学插图生成这一特定领域，任务设计反映了从解剖图示到病理过程描绘等多样化的真实需求。其评估框架引入了多维度的量化指标，超越了通用图像生成评估的范畴，能够精准捕捉模型在医学知识准确性与视觉结构合理性上的表现。这种设计使得该基准不仅能区分模型的整体性能，更能揭示其在特定医学概念理解与表达上的优势与不足。

使用方法

使用IlluGenBench进行模型评估遵循一套清晰的流程。研究者首先需从指定平台下载完整的数据集，随后通过克隆相关代码仓库并安装依赖环境来搭建评估框架。评估过程主要涉及运行指定的脚本，通过将模型生成的插图与数据集中的原始任务及细粒度准则进行比对，自动计算其在三个核心维度上的得分。最终，系统将汇总生成综合性的IlluGenBench分数，为不同模型在医学插图生成能力上提供客观、可比较的量化分析结果。

背景与挑战

背景概述

在医学教育与临床实践领域，高质量的可视化材料对于知识传递与技能培训具有不可替代的价值。IlluGenBench数据集由FreedomIntelligence团队构建，专注于文本到图像生成任务在医学插图领域的评估。该数据集包含296项医学插图生成任务，涵盖五个类别，旨在模拟真实世界的医学插图生成场景，并提供了9,015条独特的评估准则，从科学准确性、结构正确性与语义对齐三个维度进行细粒度评估。其核心研究问题在于如何系统评估生成模型在医学这一高精度、高专业性领域内的视觉内容生成能力，为医学人工智能的可视化应用奠定了基准测试基础。

当前挑战

IlluGenBench所针对的领域挑战在于医学插图生成需同时满足极高的科学准确性与复杂的结构语义要求，现有通用文本到图像模型往往难以兼顾专业细节与整体一致性。数据构建过程中的挑战则体现在医学专业知识的高门槛，需要跨学科团队合作以确保任务与评估准则的严谨性；同时，创建覆盖多类别、多维度且规模适中的高质量基准，并设计出能精准量化模型性能的细粒度评估体系，亦是一项艰巨任务。当前评估结果揭示，开源模型与商业模型在性能上存在显著差距，凸显了该领域在模型专业化与精度提升方面仍面临持续挑战。

常用场景

经典使用场景

在医学可视化领域，IlluGenBench作为一项专业基准，其经典使用场景聚焦于评估文本到图像生成模型在医学插图创作中的性能。该数据集通过涵盖解剖结构、病理表现、手术步骤等五个类别的296项生成任务，模拟了真实世界的医学插图需求，为研究者提供了一个标准化测试平台，用以系统检验模型在生成复杂医学图像时的准确性与可靠性。

衍生相关工作

围绕IlluGenBench的评估范式与发现，已衍生出一系列聚焦医学多模态生成的经典研究工作。例如，专精于医学视频生成的MedGen模型，以及致力于微观尺度过程模拟的MicroVerse模型，均在理念上与IlluGenBench一脉相承，共同构成了一个旨在通过生成式人工智能深化医学可视化理解的系列研究体系，持续拓展着AI在生物医学领域的应用边界。

数据集最近研究