KamonBench
收藏arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/SakanaAI/KamonBench
下载链接
链接失效反馈官方服务:
资源简介:
KamonBench是由Sakana.ai创建的基于语法的图像到结构基准数据集,专注于日本家纹文化。该数据集包含54,116个示例,其中20,000个为合成复合家纹图像,每个图像均配有家纹描述语言(KDL)描述、日语分析、英语翻译和非语言程序代码,数据来源于对公开家纹图案集的重新封装与语法化生成。数据集通过定义明确的语法规则,系统性地组合容器、修饰符和基础图案三类因子,以可控方式生成合成图像。该数据集旨在为视觉-语言模型提供稀疏组合视觉识别和因子恢复的评估测试平台,支持超越标题级准确率的直接因子度量、受控重组分割和线性可及性诊断等高级分析。
KamonBench is a grammar-based image-to-structure benchmark dataset developed by Sakana.ai, centered on the culture of Japanese family crests (Kamon). This dataset comprises 54,116 total examples, including 20,000 synthetic composite Kamon images. Each image is paired with a Kamon Description Language (KDL) description, Japanese linguistic analysis, English translation, and non-verbal program code. The dataset’s data originates from the repackaging and grammaticalization of publicly accessible Kamon pattern collections. It systematically combines three categories of factors—containers, modifiers, and base patterns—using well-defined grammatical rules to generate synthetic images in a fully controllable manner. This dataset is designed to serve as an evaluation testbed for vision-language models to support sparse compositional visual recognition and factor recovery tasks, enabling advanced analytical capabilities including direct factor measurement beyond caption-level accuracy, controlled recombination segmentation, and linear probing diagnostics.
提供机构:
Sakana.ai
创建时间:
2026-05-13
原始信息汇总
KamonBench 数据集概述
基本信息
- 数据集名称:KamonBench
- 语言:英语(en)、日语(ja)
- 许可证:CC BY-NC 4.0(非商业用途)
- 标签:图像、文本、合成数据、组合泛化、视觉-语言、家纹(kamon)
- 数据集规模:10K < n < 100K
- 任务类别:图像到文本(image-to-text)
- 发布机构:SakanaAI
- 配套代码:SakanaAI/KamonBench GitHub仓库
数据集简介
KamonBench 是一个基于语法的图像到结构基准测试数据集,围绕日本家纹(家紋,kamon)构建,用于评估视觉-语言模型中的组合因子恢复能力。每个复合家纹都配有:
- 正式的家纹描述语言字符串(KDL,家紋用語)
- 分段的日语分析
- 英语翻译
- 基于生成器因子的非语言程序代码
数据文件
| 文件 | 大小 | 用途 |
|---|---|---|
kamon_bench.zip |
520 MB | 完整PNG图像集(54,116张PNG,位于dataset01/目录下) |
kamon_croissant.json |
34 MB | 主要Croissant 1.0 + RAI元数据,含标准切分 |
kamon_croissant_program_cm_holdout.json |
22 MB | Croissant变体:保留(C, M)因子对 |
kamon_croissant_program_rm_holdout.json |
22 MB | Croissant变体:保留(R, M)因子对 |
kamon_croissant_program_crm_holdout.json |
22 MB | Croissant变体:保留(C, R, M)因子三元组 |
LICENSE.txt |
— | CC BY-NC 4.0许可证文本 |
README.md |
— | 数据集卡片说明 |
数据集结构
图像档案包含54,116张PNG,位于dataset01/目录下:
| 切片 | 数量 | 描述 |
|---|---|---|
| 复合家纹 | 20,000 | 容器加纹样(可能有修饰符),或无容器的空间排列 |
| 基纹组件 | 20,000 | 每个复合家纹对应的一个独立基纹 |
| 容器组件 | 14,116 | 每个使用容器的复合家纹对应的一个独立容器 |
数据切分
| 切分 | 复合家纹 | 组件 | 总计 |
|---|---|---|---|
| 训练集 | 16,000 | 27,280 | 43,280 |
| 验证集 | 2,000 | 3,405 | 5,405 |
| 测试集 | 2,000 | 3,431 | 5,431 |
记录字段
每个Croissant记录包含以下字段:
| 字段 | 描述 |
|---|---|
id |
唯一图像标识符 |
image_path |
dataset01/中的PNG路径 |
image |
PNG内容(通过Croissant cr:fileSet解析) |
description |
日语KDL描述 |
translation |
英语翻译 |
analysis |
分段日语分析({expr, head}条目列表) |
is_composite |
记录是否为复合家纹或组件 |
component_ids |
对于复合家纹,关联的组件记录ID |
split |
"train"、"dev"或"test" |
程序标签实验
对于程序标签实验,同一图像配有以下因子的非语言编码:
- 容器(
C:NNN) - 修饰符(
X:N) - 纹样(
M:NNN)
三个*_holdout.json Croissant变体重新分配切分,使特定的因子组合((C, M)、(R, M)或(C, R, M))在训练中不可见,而底层原始标记仍单独出现在训练中。
组合切分变体
三个保留变体共享与主文件相同的图像,但重新分配训练/验证/测试标签,使每个测试复合家纹包含训练期间未见的保留因子组合。原始标记仍出现在训练中,因此测试隔离了模型是否能够以新组合绑定熟悉因子的问题。
局限性与预期用途
- KamonBench是用于组合视觉识别、因子感知评估和表示分析的研究基准,并非权威的文化或历史家纹目录。
- 家纹从上游纹样资产合成渲染,风格和专业程度与专业渲染的家纹不同,未涵盖历史传统的完整分布。
- 发布的生成器使用有限语法(一层包含、固定容器和修饰符集合)。
引用
bibtex @misc{kamonbench2026, title = {KamonBench: A Grammar-Based Dataset for Evaluating Compositional Factor Recovery in Vision-Language Models}, author = {Sproat, Richard and Peluchetti, Stefano}, year = {2026}, url = {https://arxiv.org/abs/2605.13322}, note = {arXiv preprint}, }
搜集汇总
数据集介绍

构建方式
KamonBench 数据集基于形式文法(BNF)框架,通过组合容器、修饰符和核心纹样三大基因因子,生成了20,000张合成家纹图像。每张合成图像均附带对应的 家紋用語(KDL)描述、分词后的日文分析、英文翻译以及非语言程序码。辅助组件包含20,000个独立纹样和14,116个独立容器图像,总计54,116个样本。数据以0.8/0.1/0.1比例划分为训练、开发与测试集,并设计了四种重组拆分策略,用于评估模型对因子组合的泛化能力。
特点
该数据集的核心优势在于其受控的因子可追溯性:每张家纹图像均由已知的容器、修饰符与纹样因子生成,支持细粒度的程序码因子度量与反事实纹样敏感性分析。数据集通过稀疏的组合空间(约770,000种非递归组合)构造,挑战模型从有限样本中学习可复用视觉因子的能力。此外,线性探测实验可评估冻结表征中因子信息的可访问性,而重组拆分则专门用于测试模型对熟悉因子新组合的绑定能力。
使用方法
KamonBench 主要用于评估视觉语言模型在图像到结构化描述任务中的组合因子恢复能力。研究者可在三种标签空间(日文分析、英文翻译、程序码)上训练基线模型,并计算字符编辑距离与准确率。通过使用程序码标签,可直接提取预测中的容器、修饰符与纹样因子,进而计算因子级准确率。数据集提供的重组拆分与反事实纹样组别,可进一步检验模型在稀疏组合场景下的泛化表现与因子敏感性。
背景与挑战
背景概述
KamonBench是由Sakana.ai的研究人员Richard Sproat与Stefano Peluchetti于2025年提出的一个基于文法的图像到结构基准数据集,旨在评估视觉语言模型在稀疏组合视觉识别中对构成性因子的恢复能力。该数据集以日本传统家纹(Kamon)为核心研究对象,家纹作为一种具有数百年历史的文化符号系统,其设计遵循严格的构成规则:每个家纹由容器(container)、修饰符(modifier)和基底纹样(motif)三个因子组合而成,且描述语言(家紋用語)具有高度结构化的文法。KamonBench通过生成20,000个合成家纹图像及其对应的形式化描述、日语分词分析、英文翻译和非语言程序代码,为研究视觉语言模型在稀疏数据场景下进行组合因子恢复提供了可控的测试平台。该基准在组合泛化研究领域具有重要影响力,为评估模型是否真正理解并重组视觉因子而非简单记忆整体特征开辟了新路径。
当前挑战
KamonBench所解决的核心领域问题是视觉语言模型在稀疏组合视觉识别中面临的因子恢复困境。传统图像理解任务常依赖整体描述准确性,而家纹系统因其组合空间庞大但实际数据稀疏的特性(约770,000种非递归组合),要求模型能够从有限样本中抽象出容器、修饰符和基底纹样三个可重用因子,并理解它们之间的组合规则。在构建过程中,研究者面临两大挑战:一是避免模型因接触互联网上已有的家纹图像而依赖记忆而非真正理解,因此必须采用合成数据以确保测试的新颖性;二是需要设计精细的评估指标,包括因子级别的程序代码度量、控制因子对重组划分、反事实纹样敏感性测试以及线性探针分析,以全面诊断模型是否真正恢复了因子表示而非仅仅输出表面正确的描述。
常用场景
经典使用场景
KamonBench最经典的使用场景是作为视觉-语言模型中组合性因子恢复能力的受控测试平台。该数据集以日本家纹(Kamon)这一具有深厚文化底蕴的视觉符号系统为背景,通过语法生成20,000张合成家纹图像,每张图像均与形式化的家纹描述语言(KDL)、日语分词分析、英文翻译及非语言程序代码一一对应。研究者可利用该数据集评估模型从图像中恢复容器(Container)、修饰符(Modifier)和主题(Motif)三类已知生成因子的能力,从而超越传统的标题级准确率度量,深入探究模型在稀疏组合视觉识别任务中的表现。
解决学术问题
KamonBench主要解决了视觉-语言模型中组合泛化与因子恢复的评估难题。传统基准通常依赖自然图像,难以控制生成因子,导致模型可能记忆常见组合而非真正理解视觉要素的复用关系。该数据集通过语法生成确保每个合成图像的因子已知,支持可控重组拆分(如容器-主题对、修饰符-主题对、全因子组合的保留)、反事实主题敏感性分析以及线性因子可探性探测。这些设计使研究者能够分离局部因子识别、输出中的组合绑定以及冻结表征中的因子可及性,为深入研究稀疏条件下的组合视觉推理提供了不可或缺的诊断工具。
衍生相关工作
KamonBench衍生了一系列与组合泛化、因子恢复和稀疏视觉识别相关的经典工作。其设计沿袭了SCAN和CLEVR等组合性泛化基准的诊断传统,但首次将问题置于文化形式语言语境中。后续研究可基于该数据集探索不同架构(如ViT与VGG对比)、标签空间(日语、英语、程序代码)以及训练数据规模下的因子恢复表现。此外,线性探测和反事实敏感性分析等工具在KamonBench上得到了系统应用,为理解模型内部表征是否真正分离了视觉因子提供了方法论借鉴。该数据集还促进了关于少数示例学习与可解释性诊断的研究,推动了视觉-语言模型在结构化输出任务中的可控评测范式发展。
以上内容由遇见数据集搜集并总结生成



