ARTO-Gen-Dataset

Hugging Face2026-02-16 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/youngcan1/ARTO-Gen-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ARTO-KG 是一个大规模合成艺术作品数据集，通过本体引导的自动生成方法，将视觉内容与结构化知识相结合。该数据集包含 10,108 张高分辨率图像（1024×1024），每张图像均配有与 ARTO 本体对齐的全面 RDF 知识图谱。数据集总计包含 39,878 个对象实例和 1,056,970 个 RDF 三元组，平均每张图像包含 3.95 个对象和 104.6 个三元组。数据集涵盖五种艺术风格（巴洛克、新古典主义、印象派、后印象派和中国水墨画），总大小约为 14GB。每个艺术作品实例包含高分辨率 PNG 图像、完整的场景规范 JSON 元数据文件、符合 ARTO 标准的 RDF/Turtle 知识图谱文件以及质量评估结果。元数据文件详细记录了对象标签、种类、大小、状态、颜色等信息，以及空间和语义关系。知识图谱文件则编码了视觉元素、对象属性、空间关系和语义关系。 ARTO-KG 支持多种任务，包括场景图生成、视觉问答、对象检测、风格分类、语义检索和组合理解。数据集通过合成生成，使用 LLM 进行概念设计，Qwen-Image 模型生成图像，并通过多维质量评估确保数据质量。数据集未预设分割，但用户可根据艺术风格或对象复杂度创建自定义分割。ARTO-KG 填补了现有艺术作品数据集在细粒度视觉语义、组合理解和结构化知识方面的空白。

创建时间：

2026-02-16

搜集汇总

数据集介绍

构建方式

在艺术计算领域，现有数据集常缺乏细粒度语义与结构化知识，ARTO-Gen-Dataset通过本体引导的自动化生成流程填补了这一空白。该数据集采用合成生成方法，首先利用大型语言模型基于COCO对象类别进行艺术概念设计，随后借助Qwen-Image模型生成1024×1024高分辨率图像，并通过多维质量评估验证风格、对象、色彩及空间关系的准确性。所有标注均通过自动化流程生成，其中对象检测融合OWLv2与Grounding DINO模型，风格验证采用Qwen 2.5 VL，空间与语义关系则分别通过几何验证与视觉语言模型完成，最终生成与ARTO本体对齐的RDF知识图谱，确保数据在视觉内容与结构化知识间的紧密耦合。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接加载，利用其提供的图像、元数据与知识图谱文件进行多模态分析。数据集支持场景图生成、对象检测、视觉问答及风格分类等多种任务，用户可基于艺术风格或对象复杂度自定义数据划分。对于知识驱动的应用，可通过RDFlib加载Turtle格式的知识图谱文件，执行SPARQL查询以检索特定对象、关系或艺术特征，实现基于语义的 artworks 检索与推理。示例代码展示了如何加载数据集并查询知识图谱，为艺术计算与知识图谱融合研究提供了便捷的实践入口。

背景与挑战

背景概述

在数字人文与计算机视觉的交叉领域，艺术作品的深度理解长期面临语义鸿沟的挑战。ARTO-KG数据集由SocialMachineLab团队于近期创建，旨在通过合成生成技术构建一个大规模、结构化的艺术作品数据集。该数据集的核心研究问题在于如何将视觉内容与形式化知识图谱紧密结合，以支持对艺术作品中复杂构图、对象关系及风格特征的机器理解。其创新性地采用ARTO本体论指导的自动化生成流程，生成了涵盖巴洛克、新古典主义、印象派、后印象派及中国水墨画五种风格的万余幅高分辨率图像，每幅作品均配有详尽的RDF知识图谱，包含空间关系、语义交互等多维度标注。这一工作显著推进了知识增强的视觉理解研究，为艺术计算、场景图生成、视觉问答等任务提供了宝贵的基准资源。

当前挑战

该数据集致力于解决艺术领域视觉理解的深层挑战，主要包括：在领域问题层面，艺术作品蕴含丰富的象征意义、风格特质与复杂对象交互，传统图像数据集缺乏对此类细粒度视觉语义与结构化关系的编码能力，导致机器难以实现真正的构图理解与风格感知。在构建过程中，挑战同样显著：合成生成需确保艺术风格的准确性与视觉真实性；自动化标注系统在对象检测、关系验证等方面需维持高精度以保障知识图谱的可靠性；此外，将非结构化的视觉信息转化为符合本体论规范的RDF三元组，涉及复杂的知识表示与对齐问题，对生成流程的严谨性与可扩展性提出了较高要求。

常用场景

经典使用场景

在艺术计算与文化遗产数字化领域，ARTO-Gen-Dataset以其丰富的结构化知识图谱，为场景图生成任务提供了理想的研究平台。该数据集通过合成艺术作品图像，并配以详尽的RDF三元组标注，精确捕捉了物体间的空间与语义关系。研究者可借此训练模型理解复杂视觉场景中的对象布局与交互，例如分析巴洛克风格画作中人物与道具的戏剧性排列，从而推动计算机视觉在细粒度视觉语义解析方面的进展。

解决学术问题

该数据集有效应对了艺术图像分析中长期存在的挑战，即缺乏融合视觉内容与结构化知识的统一框架。它通过自动化生成的、符合ARTO本体的知识图谱，为视觉问答、风格分类与语义检索等任务提供了可查询的语义基础。这不仅解决了现有数据集在构图理解与关系编码方面的局限性，也为知识增强的视觉理解研究开辟了新路径，促进了跨模态人工智能在艺术领域的深入应用。

实际应用

在博物馆数字化与智能导览系统中，ARTO-Gen-Dataset能够支持基于内容的艺术作品检索与交互式问答。例如，用户可通过自然语言或SPARQL查询，精准查找特定风格、包含特定物体或体现特定构图关系的画作。此外，其合成数据生成范式可为文化遗产保护提供数据增强方案，辅助训练视觉模型以识别、分类与理解珍贵艺术品的视觉元素与内在关联，提升公共文化服务的智能化水平。

数据集最近研究