automatic-web-icon-dataset

github2020-05-13 更新2024-05-31 收录

下载链接：

https://github.com/OliverEdholm/automatic-web-icon-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过抓取Alexa排名前N的网站上的所有图像，并根据图像是否为自然照片或计算机图形进行过滤，以及其他一些小的合理性检查。每个图像标签的所有属性都保存在相邻的JSON文件中。

This dataset is compiled by scraping all images from the top N websites ranked by Alexa, filtering them based on whether they are natural photographs or computer-generated graphics, along with some minor sanity checks. All attributes of each image label are stored in an adjacent JSON file.

创建时间：

2019-10-01

原始信息汇总

自动图标数据集概述

数据集构建方法

通过爬取Alexa排名前N的网站，下载所有图像。
根据图像是否为自然照片或计算机图形进行过滤，并进行其他基本检查。
每个图像标签的所有属性均保存在相邻的JSON文件中。

数据集运行命令

python3 -m bin.build_icon_dataset TOP_N OUT_DIRECTORY_PATH N_PROCESSES

图像分类方法

基于非常小的双线性调整大小的灰度图像的唯一颜色数量设置阈值。
测量通过JPEG压缩、PCA或其他类似方法压缩后的损失。
使用卷积神经网络（ConvNets）。

相关论文

基于大量网站过滤创建数据集

Conceptual Captions: A New Dataset and Challenge for Image Captioning

自然照片与计算机图形分类

Distinguishing Computer-generated Graphics from Natural Images Based on Sensor Pattern Noise and Deep Learning
Distinguishing Computer Graphics from Natural Images Using Convolution Neural Networks
Distinguishing Computer Graphics from Photographic Images Using Local Binary Patterns

搜集汇总

数据集介绍

构建方式

该数据集通过抓取Alexa排名前N的网站，下载所有图像，并根据图像是否为自然照片或计算机图形等属性进行过滤，辅以其他小规模的合理性检查。图像的每一个属性都被保存在一个相邻的JSON文件中，以此构建起一个自动化的图标数据集。

使用方法

用户可以通过运行`python3 -m bin.build_icon_dataset TOP_N OUT_DIRECTORY_PATH N_PROCESSES`命令来构建数据集，其中TOP_N代表要抓取的网站数量，OUT_DIRECTORY_PATH为数据输出目录，N_PROCESSES则指定并发进程数。该命令执行后，用户将获得包含图像及其属性的JSON文件，便于进一步的数据处理和分析。

背景与挑战

背景概述

自动网页图标数据集（Automatic icon dataset）是在网络图像研究领域具有重要价值的资源。该数据集由Oliver Edholm于近年创建，通过抓取Alexa排名前N的网站，下载所有图像，并基于图像是否为自然照片或计算机图形等属性进行筛选。其核心目的是为了区分自然图像与计算机生成图像，进而为图像分类、图像标注等领域提供了丰富的实验材料，对于推动相关技术的发展具有不可忽视的影响力。

当前挑战

在构建该数据集的过程中，研究人员面临了诸多挑战。首先，如何准确地区分自然照片与计算机图形成为一大难题，为此，研究团队采用了多种方法，如基于图像色彩独特性的阈值设定、JPEG压缩后的损失测量以及卷积神经网络的应用等。其次，数据集的构建还需克服大规模网络数据抓取、处理与存储的技术难题。当前，该数据集在图像识别领域仍面临如何进一步提升分类精确度与扩展数据多样性的挑战。

常用场景

经典使用场景

在图像识别领域，automatic-web-icon-dataset数据集被广泛用于自动图标识别与分类的研究。该数据集通过抓取Alexa排名前N的网站，下载所有图像，并基于图像是否为自然照片或计算机图形等属性进行筛选，为研究者提供了一个丰富的图标样本集。

解决学术问题

此数据集解决了学术研究中对于图标数据获取的难题，提供了大量经过预处理的图标数据，有助于降低研究者在数据收集和清洗上的成本。它还通过分类图像为自然照片或计算机图形，为图像识别领域中的模式识别和分类问题提供了标准数据集，推动了相关算法的发展。

实际应用

在实际应用中，automatic-web-icon-dataset数据集可用于网站图标自动识别，辅助搜索引擎优化，提高网络内容的可检索性和用户体验。此外，该数据集对于开发图像识别算法，如深度学习模型训练，也具有重要的实用价值。

数据集最近研究