VaseVQA-3D

Name: VaseVQA-3D
Creator: 北京大学, 北京交通大学, 拉筹伯大学
Published: 2025-10-06 12:28:39
License: 暂无描述

arXiv2025-10-06 更新2025-10-08 收录

下载链接：

https://github.com/AIGeeksGroup/VaseVQA-3D

下载链接

链接失效反馈

官方服务：

资源简介：

VaseVQA-3D数据集是首个针对古希腊陶罐分析的3D视觉问答数据集，收集了664个古希腊陶罐的3D模型及其对应的问题-答案数据，并建立了完整的数据构建流程。该数据集旨在解决当前视觉语言模型在3D陶罐文物数据稀缺和领域知识不足的问题，通过领域自适应训练，显著提高了模型在陶罐文物分析方面的性能，为数字遗产保护研究提供了新的技术路径。

The VaseVQA-3D dataset is the first 3D visual question answering (VQA) dataset dedicated to the analysis of ancient Greek vases. It includes 3D models of 664 ancient Greek vases along with their corresponding question-answer pairs, and establishes a complete data construction pipeline. This dataset aims to solve the problems of scarce 3D cultural relic data of vases and insufficient domain knowledge for current vision-language models. Through domain-adaptive training, it significantly improves the performance of models in the analysis of vase cultural relics, providing a new technical approach for digital heritage preservation research.

提供机构：

北京大学, 北京交通大学, 拉筹伯大学

创建时间：

2025-10-06

原始信息汇总

VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery

数据集概述

数据集名称：VaseVQA-3D
主要用途：评估3D视觉语言模型在古希腊陶器上的性能
核心特点：专注于3D视觉语言模型基准测试

研究领域

计算机视觉
三维视觉语言模型
文化遗产数字化

研究对象

古希腊陶器

数据集目标

建立评估3D视觉语言模型的基准
推动3D视觉语言模型在文化遗产领域的应用

搜集汇总

数据集介绍

构建方式

在文化遗产数字化保护领域，VaseVQA-3D数据集通过系统性数据构建流程实现了从二维图像到三维模型的转化。该流程首先从VaseVQA数据集的3万余张古希腊陶器二维图像中，采用ResNet-50分类器与CLIP语义过滤的双重机制，筛选出3,880张高质量图像；随后运用TripoSG技术将这些二维图像转化为664个高保真度的GLB格式三维模型；最终结合GPT-4o语言增强技术，生成4,460组结构化问答对与描述性标注，构建出完整的视觉问答数据集。

特点

该数据集在三维视觉语言理解领域展现出独特优势，其核心特征体现在多维度的专业标注体系。每个三维陶器模型均配备标准化问答数据，涵盖制作材料、工艺技法、器型分类、历史断代、纹饰主题与艺术归属六大考古学维度。通过四视角规范化渲染与360度旋转视频序列，数据集实现了对陶器空间形态的全面表征。特别构建的VaseEval评估集包含24个专业级GLB模型，为三维生成质量提供了可靠的验证基准，确保模型在几何精度与纹理保真度方面达到考古研究标准。

使用方法

在具体应用层面，该数据集为三维视觉语言模型的领域适应性训练提供了完整技术路径。研究团队基于Qwen2.5-VL基础模型，采用两阶段训练策略：首先通过LoRA监督微调建立基线性能，输入360度旋转视频与考古学标注描述；随后应用GRPO强化学习方法，结合可验证奖励机制对六个语义维度进行多目标优化。评估阶段采用综合指标体系，包括传统图像质量指标、几何精度指标与语义一致性指标，同时引入专家人工评估确保文化适切性，为数字文化遗产分析建立了标准化评估框架。

背景与挑战

背景概述

在文化遗产数字化保护与人工智能交叉研究蓬勃发展的背景下，VaseVQA-3D数据集于2025年由北京大学、北京交通大学及拉筹伯大学联合团队推出，成为首个专注于古希腊陶器三维视觉问答的基准数据集。该数据集针对三维视觉语言模型在文化遗产领域的专业认知瓶颈，系统性地构建了包含664个高精度三维陶器模型及4460组问答对的数据生态，通过融合考古学元数据与生成式人工智能技术，填补了三维文物多模态理解领域的空白，为数字考古与跨学科研究提供了关键基础设施。

当前挑战

该数据集致力于解决三维文化遗产物体理解中的两大核心难题：一是现有视觉语言模型对长尾专业领域知识的适应性不足，尤其在处理需要空间推理与文化背景的陶器分析任务时表现局限；二是数据构建过程中面临原始二维图像质量参差、碎片化严重及多视角选择困难等挑战，需通过ResNet-50分类器与CLIP语义过滤的三级流水线实现数据提纯，并借助TripoSG技术实现二维至三维的高保真转换，最终在保证考古准确性的前提下完成高质量三维模型生成。

常用场景

经典使用场景

在文化遗产数字化保护领域，VaseVQA-3D数据集为三维视觉语言模型提供了专业评估基准。该数据集通过664个古希腊陶器三维模型与配套问答对，系统验证模型在三维空间中对文物形态、纹饰及工艺特征的跨模态理解能力，成为三维视觉问答任务在考古学领域的典型应用范例。

衍生相关工作

基于该数据集衍生的VaseVLM模型通过领域自适应训练策略，开创了三维文物分析的新范式。相关工作进一步拓展至多模态文物检索系统、陶器纹饰风格迁移算法等方向，催生了如ArchaeoScape考古遗址识别、CycleGAN壁画修复等系列创新研究，构建起文化遗产计算研究的完整技术生态。

数据集最近研究