relaion-art

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/Fhrozen/relaion-art

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Relaion Art - LLM-Annotated，包含来自原始Relaion Art数据集的图像和注释。在800万张图像中，有366万张图像通过自动方法（图像-文本到文本模型）进行了注释。注释包括四个列：dense_caption（密集注释，详细描述场景）、vqa（视觉问答，以JSON字符串形式嵌入）、objects（图像中的对象，以JSON字符串形式嵌入）和text_content（OCR识别的文本，以JSON字符串形式嵌入）。这些注释是通过Qwen3 VLM模型生成的，并遵循特定的系统提示和用户提示。数据集的特征包括图像、文件名、URL、文本、宽度、高度以及上述四个注释列。数据集仅包含训练集，大小为425132395745字节，包含3664531个示例。生成提示和描述遵循Apache 2.0许可证，而图像则遵循其原始许可证。

This dataset, designated as Relaion Art - LLM-Annotated, encompasses images and annotations sourced from the original Relaion Art dataset. Out of the 8 million total images, 3.66 million have been annotated using an automatic method (image-text to text model). The annotations include four distinct columns: `dense_caption` (a dense caption providing detailed scene descriptions), `vqa` (Visual Question Answering, embedded as a JSON string), `objects` (objects contained within the image, embedded as a JSON string), and `text_content` (text identified via OCR, embedded as a JSON string). These annotations were generated with the Qwen3 VLM model, adhering to specific system prompts and user prompts. The dataset features include images, filenames, URLs, text, width, height, and the four aforementioned annotation columns. The dataset exclusively comprises a training split, with a total size of 425,132,395,745 bytes and 3,664,531 examples. The generation prompts and annotation descriptions are licensed under the Apache 2.0 license, while the images are subject to their original respective licenses.

创建时间：

2026-01-18

原始信息汇总

Relaion Art - LLM-Annotated 数据集概述

数据集来源

原始数据集：Relaion Art Dataset
原始来源地址：https://huggingface.co/datasets/laion/relaion-art

数据集构成

数据总量：包含原始800万张图像中的一个子集。
已标注数据量：3,664,531张图像。
数据分割：仅包含训练集（train split）。
训练集大小：425,132,395,745字节（约425 GB）。
下载大小：416,828,740,940字节（约417 GB）。

数据特征

数据集中每个样本包含以下字段：

image：图像数据，格式为image。
filename：文件名，格式为string。
url：图像URL，格式为string。
text：文本信息，格式为string。
width：图像宽度，格式为int64。
height：图像高度，格式为int64。
dense_caption：对图像的密集描述，格式为string。
vqa：与图像相关的视觉问答数据，以JSON字典字符串形式存储，格式为string。
objects：图像中检测到的物体，以JSON字典字符串形式存储，格式为string。
text_content：图像中的OCR文本内容，以JSON字典字符串形式存储，格式为string。

标注信息

标注方法：使用自动方法（图像-文本到文本模型）进行标注。
标注模型：使用Qwen3 VLM模型（具体为https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Thinking-FP8）生成。
标注内容：包含四个标注列，均由上述模型生成。

标注列详细说明

dense_caption：关于图像的详细描述段落（3-5句话），包含整体氛围、主要物体及其空间位置、颜色、纹理、光照、物体间关系以及任何传达的动作或情感。
vqa：视觉问答对，包含5-10个问题，涵盖感知、计数、推理和OCR等类型，以JSON格式存储。
objects：图像中的关键物体列表（3-10个），每个物体包含物体名称、属性（颜色、材质、状况）和位置提示，以JSON格式存储。
text_content：图像中的文本内容信息，包含是否有文本、转录文本（来自标志、标签、书籍等）以及文本上下文，以JSON格式存储。

标注生成流程

水印检测：首先检测图像是否包含显著水印（如Getty Images、shutterstock徽标、大型版权覆盖层）。如果检测到，则标注为水印检测并拒绝。
全面标注生成：如果未检测到水印，则生成包含上述四个字段的详细JSON标注。

许可信息

生成的提示和描述：根据Apache 2.0许可证授权。
原始仓库中的图像：保留其各自的许可证。
注意事项：如果出现任何许可证问题，图像将在不事先通知的情况下被移除。

致谢

感谢原始Relaion Coco团队。

搜集汇总

数据集介绍

构建方式

在数字艺术与视觉语言模型交叉领域，Relaion Art数据集通过自动化标注方法构建而成。该数据集从原始Relaion Art数据集的800万张图像中，精选出366万张图像作为核心子集。利用先进的视觉语言模型Qwen3-VL-30B-A3B-Thinking-FP8，对每张图像执行系统化的多维度分析。标注过程遵循严格的提示工程框架，模型依据预定义的系统提示和用户提示，生成结构化的JSON格式注释，确保标注内容的一致性与机器可读性。这一构建策略实现了大规模艺术图像与高质量、细粒度文本描述的有机结合。

特点

Relaion Art数据集以其丰富且结构化的多模态注释而著称。每张图像均配备四个核心标注字段：密集描述（dense_caption）以段落形式细致描绘场景氛围、物体空间关系及视觉细节；视觉问答（vqa）包含5至10个涵盖感知、计数、推理与OCR类型的问题对；物体列表（objects）枚举图像中的关键物体及其属性与位置；文本内容（text_content）则记录图像内可能存在的OCR文本及其上下文。所有注释均以标准化的JSON格式封装，便于程序化解析与利用，为视觉语言理解任务提供了层次分明的语义信息。

使用方法

该数据集主要服务于视觉语言模型的训练与评估。研究人员可直接通过HuggingFace平台加载数据集，利用其`train`分割中的图像与对应结构化注释。典型应用包括训练图像描述生成模型、构建视觉问答系统，或作为多模态理解的基准数据。使用时应遵循原始图像各自的许可协议，并注意自动生成注释可能存在的误差。数据集中预定义的`vqa`字段可直接用于问答任务微调，而`dense_caption`和`objects`字段则为场景理解与物体检测模型提供了丰富的监督信号。

背景与挑战

背景概述

Relaion Art数据集源于LAION组织对大规模视觉-语言数据资源的持续构建，其核心研究问题聚焦于如何通过自动化标注技术，为海量图像生成高质量、结构化的多模态描述。该数据集创建于2024年，基于原始Relaion Art图像集合，利用先进的视觉语言模型Qwen3-VL-30B-A3B-Thinking-FP8，对366万张图像进行了密集标注，涵盖密集描述、视觉问答、对象识别与文本提取等多维度信息。这一工作显著推动了多模态人工智能领域的发展，为图像理解、视觉推理及跨模态生成任务提供了丰富且标准化的训练资源，促进了模型在复杂场景下的语义感知能力。

当前挑战

Relaion Art数据集旨在解决多模态理解中图像语义解析的挑战，其核心问题在于如何自动生成精确、全面且结构化的图像描述，以支持视觉问答、对象检测与场景理解等任务。构建过程中的主要挑战包括：确保大规模自动化标注的准确性与一致性，避免视觉语言模型产生幻觉或错误描述；有效处理图像中的水印干扰，需设计严谨的过滤机制以排除低质量样本；以及管理多源图像的版权合规性，在数据整合与分发中维护法律与伦理边界。这些挑战对数据集的可靠性、多样性与可用性构成了关键考验。

常用场景

经典使用场景

在视觉语言模型（VLM）与多模态人工智能研究领域，Relaion Art数据集以其大规模图像与结构化标注为基石，为模型训练与评估提供了丰富资源。该数据集最经典的使用场景在于支持视觉问答（VQA）、图像描述生成以及目标检测等任务的端到端学习。研究人员利用其密集标注的文本描述、对象列表和视觉问答对，能够训练模型深入理解图像内容，并建立视觉与语言模态间的语义对齐，从而推动多模态理解技术的边界。

实际应用

在实际应用层面，Relaion Art数据集为图像内容理解、智能辅助创作以及无障碍技术开发提供了关键数据支持。例如，在数字媒体领域，基于该数据集训练的模型可用于自动生成图像alt文本，提升网络可访问性；在创意产业中，辅助设计师进行图像检索与灵感激发；在教育科技方面，赋能交互式学习工具，通过视觉问答增强教学体验。这些应用均依赖于数据集提供的细致对象定位、场景描述与文本内容识别能力。

衍生相关工作

围绕Relaion Art数据集，已衍生出一系列经典研究工作，主要集中在多模态模型架构创新与标注方法改进上。例如，部分研究利用其密集标注训练端到端的视觉语言Transformer，以提升模型在细粒度视觉推理任务上的性能；另一些工作则基于其自动标注流程，探索更高效的视觉提示工程与少样本学习策略。这些工作不仅验证了数据集在推动模型性能提升方面的价值，也为后续大规模多模态数据集的构建与标注范式设立了参考标准。

以上内容由遇见数据集搜集并总结生成