Image Cultural Accuracy Benchmark
收藏Image Cultural Accuracy Benchmark 数据集概述
数据集简介
这是一个用于测试文化基础是否能提高AI生成图像历史准确性的可复现基准。数据集包含24对图像,涉及设定在公元110年罗马的3个角色,采用盲法A/B方法进行评估。
核心发现
- 主要发现:简单的提示词生成的图像虽然看起来像罗马风格,但包含细微的时代错误(错误的建筑、服装、物品)。通过Triad引擎进行结构化知识注入,可将准确率(PASS率)从12.5%提升至83.3%。
- 评估指标:
指标 RAW(简单提示) TRIAD(增强提示) PASS(历史准确) 3/24 (12.5%) 20/24 (83.3%) PARTIAL(轻微问题) 18/24 (75%) 4/24 (16.7%) FAIL(重大时代错误) 3/24 (12.5%) 0/24 (0%) 被判定为更准确 0/24 (0%) 23/24 (95.8%)
数据集内容
-
图像数据:包含所有48张生成的图像(24张RAW + 24张TRIAD)。
-
角色定义:
角色 身份 关键视觉标志 Senator Marcus Tullius 58岁,资深元老 镶紫边的托加长袍,埃斯奎利诺山别墅 Gaius the Merchant 35岁,获释奴隶商人 丘尼卡和帕利乌姆(非托加长袍),青铜商人徽章 Julia Aurelia 22岁,贵族女儿 斯托拉和帕拉,图拉真时代的固定发髻 -
示例:简单提示词的常见错误:
提示词 时代错误 正确描述 "Senator giving a speech in the Colosseum" 错误地点 元老们在库里亚·朱利亚发表演讲 "Writing with a pen and paper" 错误材料 使用铁笔的蜡板,或芦苇笔的纸莎草纸 "Young Roman woman with flowers in her hair" 错误时代 使用金属发簪固定的图拉真时代发髻 "Merchant wearing Roman clothes" 错误阶级 获释奴隶穿丘尼卡/帕利乌姆,而非托加长袍
数据集结构
data/ image_prompts.json # 24个提示词,包含原始文本、已知时代错误、增强目标 characters.json # 角色定义
cultural_guide_schema/ example_guide.json # 用于构建自定义领域指南的模板模式
runners/ run_image_benchmark.py # 生成RAW和TRIAD图像(需要领域指南) evaluate_images.py # 对现有图像运行盲法Gemini Vision评估
results/ images/ # 所有48张生成的图像(24 raw + 24 triad) image_evaluation_*.json # 机器可读的评估结果
PAPER.md # 完整的研究论文
使用方法
-
克隆仓库: bash git clone https://github.com/Mysticbirdie/image-cultural-accuracy-benchmark.git cd image-cultural-accuracy-benchmark
-
安装依赖: bash pip install httpx Pillow
-
设置API密钥: bash export GOOGLE_API_KEY="your-key-here"
-
重新运行盲法评估: bash python runners/evaluate_images.py
评估方法
所有24对图像均使用盲法A/B协议进行评估:
- 图像随机标记为“Image A”/“Image B”——评估者不知道哪张是RAW或TRIAD。
- 两者均根据相同的历史准确性标准进行评估。
- 仅在评分后将结果映射回RAW/TRIAD。
相关资源
- 完整研究论文:https://github.com/Mysticbirdie/image-cultural-accuracy-benchmark/blob/main/PAPER.md
- 用于生成TRIAD增强提示词的公元110年罗马领域指南未包含在此仓库中。请参阅
cultural_guide_schema/example_guide.json了解模式结构,可为任何历史或文化领域构建自己的指南。
技术要求
- Python 3.10+
- Google AI API密钥(用于评估的Gemini 2.0 Flash——免费层级)
httpx,Pillow
基准信息
- 基准测试时间:2026年3月
- 图像生成模型:Gemini
- 评估模型:Gemini 2.0 Flash




