five

image_net-sketch-hq-resized

收藏
Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/tumuyan2/image_net-sketch-hq-resized
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个通过Argilla创建的图像数据集,包含了经过筛选的高质量草图图像,用于训练和评估。数据集中的图像根据质量和水印情况进行评分和分类。
创建时间:
2025-05-05
原始信息汇总

数据集概述:image_net-sketch-hq-resized

数据集基本信息

  • 数据集名称:image_net-sketch-hq-resized
  • 创建工具:Argilla
  • 标签:rlfh, argilla, human-feedback

数据集结构

字段(Fields)

字段名称 标题 类型 是否必需
jpeg jpeg image False
key key text False
url url text False

问题(Questions)

问题名称 标题 类型 是否必需 描述 值/标签
rating_0 quality rating True 细节和质量评分 [0, 1, 2, 3, 4, 5]
rating_1 watermark rating True 水印评分 [0, 1, 2]

数据分割

  • 分割名称:train

数据集创建

来源数据

  • 原始数据集:imagenet_sketch
  • 数据集链接:https://huggingface.co/datasets/songweig/imagenet_sketch

注释指南

  • 质量评分
    • 0: 垃圾,非草图,像素化,照片
    • 1: 简单图像,如标志
    • 3: 类似1990年代书籍插图
    • 5: 完美草图
  • 水印评分
    • 0: 负面水印
    • 1: 简单水印,可裁剪
    • 2: 水印不在主要区域

使用方式

使用Argilla加载

python import argilla as rg ds = rg.Dataset.from_hub("tumuyan2/image_net-sketch-hq-resized", settings="auto")

使用datasets加载

python from datasets import load_dataset ds = load_dataset("tumuyan2/image_net-sketch-hq-resized")

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于ImageNet Sketch数据集进行精选构建,通过严格的标注流程筛选高质量素描图像。构建过程中采用双层质量评估机制,首先依据图像细节和清晰度进行0-5级评分,剔除得分低于1分的低质量样本;其次针对水印干扰进行0-2级分类,保留可裁剪处理的轻度水印样本。每日更新的动态维护机制确保数据集持续优化。
特点
数据集聚焦于高质量素描图像,包含精细的视觉特征标注体系。每幅图像配备双重评级维度:质量维度区分从简单线条到专业级素描的6级梯度,水印维度量化标识干扰程度。数据格式兼容主流机器学习框架,包含原始图像、唯一标识符及来源URL等结构化字段,支持计算机视觉任务的细粒度分析。
使用方法
用户可通过两种方式调用数据集:使用Argilla平台时,安装最新版库后直接加载预设配置实现可视化分析;基于HuggingFace datasets库加载时,可获取标准化处理的图像数据及标注信息。数据集采用单一训练集划分,图像以JPEG格式存储,配套的评分标准和水印分类体系为模型训练提供多维度监督信号。
背景与挑战
背景概述
image_net-sketch-hq-resized数据集是基于ImageNet-Sketch数据集的高质量筛选版本,专注于手绘素描图像的分类与识别任务。该数据集由研究者tumuyan2通过Argilla平台构建,旨在优化原始数据集中存在的低质量样本问题。ImageNet-Sketch作为ImageNet的衍生数据集,最初由Songwei Ge等人提出,通过收集手绘素描图像来评估模型在跨域视觉任务中的泛化能力。该数据集的构建填补了传统图像分类数据集中素描样本的空白,为研究视觉域适应和零样本学习提供了重要资源。
当前挑战
该数据集面临的核心挑战在于如何有效筛选高质量素描样本并消除水印干扰。原始ImageNet-Sketch数据集存在样本质量参差不齐的问题,包括像素化、非素描照片以及商业水印等干扰因素。在构建过程中,研究者需要设计精细的标注规范,通过双重评分机制(图像质量0-5分和水印程度0-2分)进行人工筛选。另一个关键挑战在于保持类别平衡的同时剔除低质量样本,这要求标注者具备专业的视觉判别能力。此外,水印的多样性和位置不确定性也增加了数据清洗的复杂度。
常用场景
经典使用场景
在计算机视觉领域,image_net-sketch-hq-resized数据集为研究者提供了一个高质量的素描图像集合,特别适用于图像分类和风格迁移任务的基准测试。该数据集经过精心筛选,去除了低质量和水印图像,确保了数据的纯净性,使其成为评估模型在非真实感图像上性能的理想选择。
实际应用
在实际应用中,image_net-sketch-hq-resized数据集可用于开发素描图像分类系统、艺术风格转换工具以及教育领域的视觉辅助应用。其高质量的数据支持了从学术研究到工业应用的广泛需求,尤其在需要处理非真实感图像的场景中表现出色。
衍生相关工作
基于该数据集,研究者已开展了多项经典工作,包括素描图像分类算法的优化、跨域图像生成模型的开发以及视觉问答系统的改进。这些工作不仅验证了数据集的价值,还进一步拓展了其在多模态学习中的应用潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作