Hanfu-Bench
收藏arXiv2025-06-02 更新2025-06-06 收录
下载链接:
https://huggingface.co/lizhou21/Hanfu-Bench
下载链接
链接失效反馈官方服务:
资源简介:
Hanfu-Bench是一个由专家精心策划的多模态数据集,旨在评估视觉-语言模型在理解跨时间文化特征和进行文化元素传承方面的能力。数据集包含了中国古代汉服的图像,跨越了多个朝代,反映了汉服在历史演变中的风格变化。该数据集包含两项核心任务:文化视觉理解和文化图像转换。文化视觉理解任务通过多选视觉问答来评估模型对汉服时间文化特征的认识。文化图像转换任务则要求模型将传统的汉服设计转化为现代的服装设计,同时保留其文化元素。该数据集为模型在文化传承和创意设计方面的研究提供了重要的测试平台。
Hanfu-Bench is a multi-modal dataset meticulously curated by experts, designed to evaluate the capabilities of vision-language models in comprehending cross-temporal cultural features and inheriting cultural elements. The dataset comprises images of ancient Chinese Hanfu spanning multiple dynasties, reflecting the stylistic evolutions of Hanfu across historical development. It includes two core tasks: cultural visual understanding and cultural image transformation. The cultural visual understanding task assesses the model’s awareness of the temporal and cultural characteristics of Hanfu via multiple-choice visual question answering. The cultural image transformation task requires the model to convert traditional Hanfu designs into modern fashion designs while retaining their core cultural elements. This dataset serves as a critical testbed for research on models' capabilities in cultural inheritance and creative design.
提供机构:
香港中文大学(深圳), 深圳大数据研究院, 成都理工大学, 哥本哈根大学
创建时间:
2025-06-02
搜集汇总
数据集介绍

构建方式
Hanfu-Bench数据集的构建过程分为三个阶段:首先从在线零售商和电视剧中收集多朝代汉服图像,确保风格多样性;随后通过两阶段过滤流程(粗粒度去重和细粒度特征筛选)剔除低质量样本;最后由九位汉服专家对保留的496套服饰进行八类视觉特征标注,包括整体形制、朝代属性等全局特征及袖型、领型等局部细节,每套服饰需三位标注者达成一致意见。标注过程采用标准化流程和验证工具,最终形成包含1,192张图像的高质量多模态数据集。
特点
该数据集以汉服为载体,突出展现中国服饰文化的时间维度演变特性:1)时空双重性,涵盖秦汉至明朝五个典型历史时期的服饰特征;2)多粒度标注体系,包含3类全局特征和5类局部细节的精细化标注;3)双任务驱动设计,既包含基于单图/多图的视觉问答任务,也创新性地提出传统元素现代化转创任务。其独特价值在于首次系统构建了跨时空文化理解的评估框架,填补了现有文化数据集偏重地理多样性而忽视时间维度的研究空白。
使用方法
研究者可通过两种核心任务利用该数据集:文化视觉理解任务采用多选视觉问答形式,评估模型对单图或多图中汉服时空特征的识别能力,需注意不同提示词(如分步推理要求)对模型表现的影响;文化图像转创任务则通过级联框架实现,先由VLMs提取传统服饰特征并生成现代设计描述,再通过扩散模型生成图像,最终需从视觉变化度、现代适配性等六个维度进行人工评估。数据集已开源并附带完整标注工具,支持跨学科的文化计算研究。
背景与挑战
背景概述
Hanfu-Bench是由香港中文大学(深圳)等机构的研究团队于2025年提出的多模态基准数据集,聚焦于跨时段文化理解与创造性转化的研究领域。该数据集以中国传统服饰汉服为载体,系统收录了秦汉至明朝五个历史时期的服饰样本,通过专家标注的8类视觉特征构建了时空文化坐标体系。其创新性体现在首次将时间维度引入文化计算研究,弥补了现有视觉语言模型(VLMs)在时空文化特征识别上的空白,为文化遗产数字化保护、历史教育及创意设计提供了重要的评估工具。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决跨时段文化元素识别(如区分魏晋与唐朝袖型)和古今审美融合(传统纹样现代化转译)的复杂性,当前最佳模型在转译任务成功率仅42%;在构建层面,存在历史图像稀缺导致的样本不均衡、多专家标注一致性控制(需三位专家共识),以及现代汉服改良款与正统形制的边界界定等难题。多图像视觉问答任务中,模型表现较人类专家低10%,暴露出时空文化推理能力的显著差距。
常用场景
经典使用场景
Hanfu-Bench数据集在跨时空文化理解与创造性转化研究中具有重要价值。该数据集通过精心筛选的汉服图像,覆盖了中国多个朝代的服饰特征,为视觉语言模型(VLMs)提供了丰富的文化视觉理解任务。其经典使用场景包括基于单图或多图输入的视觉问答(VQA),旨在评估模型对汉服时空特征的识别能力。此外,数据集还设计了文化图像转创任务,要求模型将传统汉服元素融入现代设计,从而验证其文化适应与创新潜力。
实际应用
该数据集的实际应用涵盖文化遗产数字化保护与创新设计。在博物馆领域,可辅助文物服饰的断代与特征标注;教育场景中支持历史服饰的交互式学习;时尚产业则能基于转创任务生成融合传统的现代服装设计方案。例如,将明代马面裙结构转化为当代裙装的设计流程,展示了传统文化元素在现代产品开发中的转化路径。
衍生相关工作
Hanfu-Bench启发了多项文化计算研究,包括跨地域文化适配框架CultDiff的时序扩展、多模态模型CultureVLM的评估体系优化等。其任务设计被MosAIG等研究借鉴用于多文化图像生成评估,而标注方法论则为FoodieQA等细粒度文化数据集提供了范本。相关成果推动了视觉语言模型在文化元素提取、时空特征对齐等方面的算法创新。
以上内容由遇见数据集搜集并总结生成



