ptx0/free-to-use-graffiti

Name: ptx0/free-to-use-graffiti
Creator: ptx0
Published: 2024-05-22 04:22:11
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ptx0/free-to-use-graffiti

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Free-to-Use Graffiti，包含超过600个从Reddit提取的涂鸦标签，每个标签都附有用户提交的涂鸦标签。数据集由@pseudoterminalx整理，数据来源为Reddit的/r/bombing子论坛。数据集结构包括filename列，链接到根目录中的jpeg、jpg或png文件，以及title列，包含用户为图像提交的标题，通常是实际的标签文本。

提供机构：

ptx0

原始信息汇总

数据集概述

基本信息

名称： Free-to-Use Graffiti
数量： 超过600个涂鸦标签示例
来源： Reddit /r/bombing
许可证： The Unlicense
策划者： @pseudoterminalx

数据集结构

文件名（filename）： 指向根目录中的jpeg、jpg或png文件
标题（title）： 用户提交的图像标题，通常是涂鸦文本本身

搜集汇总

数据集介绍

构建方式

在街头艺术研究领域，数据集的构建往往依赖于真实场景的采集。本数据集通过从Reddit社区`/r/bombing`子版块中系统性地收集用户上传的涂鸦标签图像及其对应文本，共汇集了600余个样本。每个样本均包含图像文件与用户提交的标题，标题通常直接对应涂鸦标签的文字内容，确保了数据来源的真实性与社区代表性。

特点

该数据集聚焦于涂鸦艺术中的标签形式，其核心特点在于提供了图像与文本的对应关系，便于进行跨模态分析。图像格式涵盖JPEG、JPG及PNG，而标题列则常直接反映涂鸦的文本内容，为研究街头艺术的视觉表达与语义关联提供了结构化资源。数据集采用宽松的Unlicense许可，进一步促进了其在学术与创作中的自由使用。

使用方法

研究人员或开发者可通过`filename`列定位图像文件，结合`title`列中的文本信息，开展图像识别、风格分析或文本-图像生成等任务。数据集适用于训练机器学习模型以理解涂鸦的视觉特征与语义标签之间的映射，亦可用于艺术学或社会学中对街头文化现象的定量研究。使用时应遵循原始许可，并注意数据来源于社区提交，可能存在内容多样性。

背景与挑战

背景概述

在数字艺术与街头文化研究领域，对涂鸦艺术的系统性收集与分析长期面临数据稀缺的挑战。ptx0/free-to-use-graffiti数据集由@pseudoterminalx于2023年通过Reddit平台/r/bombing板块采集构建，收录超过600组涂鸦标签图像及其文本描述。该数据集以Unlicense协议开源，旨在为计算机视觉与自然语言处理的跨模态研究提供基础资源，特别是推动涂鸦字符识别、风格迁移及文化语义分析等方向的发展，填补了非商业用途涂鸦数据集的空白。

当前挑战

该数据集核心挑战在于解决街头艺术数字化中的跨模态对齐问题：涂鸦图像的高度艺术变形与文本标签的语义关联存在显著差异，对视觉-语言联合建模提出精度要求。构建过程中，数据采集受限于网络社区的非结构化内容，需人工筛选以平衡艺术多样性与标注一致性；同时，图像质量参差不齐、背景干扰复杂，以及文化语境隐含性，均为数据清洗与标准化带来技术障碍。

常用场景

经典使用场景

在街头艺术与视觉文化研究领域，该数据集为计算机视觉任务提供了宝贵的资源。其经典使用场景集中于图像识别与文本检测模型的训练与评估，特别是针对涂鸦艺术中手写风格文字的自动识别。通过将Reddit社区中收集的涂鸦标签图像与用户提交的文本配对，研究者能够构建端到端的识别系统，用以解析涂鸦作品中常出现的独特字体、变形字母及艺术化符号，从而推动视觉内容理解技术在非结构化环境中的应用。

解决学术问题

该数据集有效解决了艺术信息数字化过程中的关键学术问题，即如何从非标准化的视觉艺术形式中提取可读文本信息。传统光学字符识别（OCR）技术对印刷体文字表现优异，但面对涂鸦这类具有高度个性化、装饰性及背景干扰的手写体时常显乏力。本数据集通过提供真实场景下的涂鸦样本，助力研究者开发鲁棒性更强的识别算法，填补了艺术文本自动分析领域的空白，并为跨学科研究如数字人文、艺术史分析提供了数据基础。

衍生相关工作

围绕该数据集，已衍生出若干经典研究工作，主要集中在增强型OCR与风格化文本识别方向。部分研究利用其图像-文本对训练卷积神经网络与循环神经网络的混合模型，以提升对扭曲、遮挡涂鸦文字的识别准确率。另有工作专注于风格迁移，通过分析涂鸦标签的视觉特征，生成具有类似艺术风格的新字体。这些成果不仅推动了计算机视觉在艺术领域的应用，也为社交媒体内容分析、自动化内容审核等任务提供了技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集