Internet Advertisements Dataset

github2020-05-09 更新2024-05-31 收录

下载链接：

https://github.com/AbdelkaderBerrouachedi/internet-ads-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3279个实例，其中2821个非广告和458个广告。数据具有1558个属性，包括高度、宽度、宽高比和本地特征等。数据类型为数值型，格式为逗号分隔。

This dataset comprises 3,279 instances, including 2,821 non-advertising samples and 458 advertising samples. It has 1,558 attributes such as height, width, aspect ratio, local features and other related attributes. The data is of numeric type and stored in comma-separated values (CSV) format.

创建时间：

2020-05-09

原始信息汇总

数据集概述

数据文件

格式: 数据以逗号分隔的格式存储。
结构: 包含一个数据文件，列名（属性）在单独的文件中，可与记录文件中的列匹配。

属性

总数: 1558个属性。
类型: 3个连续属性，其余为二进制属性。
缺失数据: 28%的实例中至少有一个连续属性缺失。
具体属性:
- 高度、宽度、宽高比
- 本地属性:
  - 19个标题特征
  - 111个alt特征
  - 495个基础URL特征
  - 472个目标URL特征
  - 457个图像URL特征

记录数量

总数: 3279条记录。
分类: 2821条非广告记录，458条广告记录。

数据类型

数值类型: 所有记录值均为数值型。

数据挖掘目标

目标: 利用给定数据创建一个分类模型，区分图像是否为广告（"ad"或"nonad"）。

搜集汇总

数据集介绍

构建方式

Internet Advertisements Dataset的构建采用了将图像属性与URL特征相结合的方式。该数据集的构建者从互联网广告中提取了丰富的特征，包括连续的尺寸、比例等属性以及二进制的URL特征，形成了共计1558个属性的数据集。其中，连续特征在某些记录中存在缺失，这为数据预处理提供了挑战。数据集涵盖了3279个实例，其中包含了2821个非广告实例和458个广告实例，为广告分类模型提供了充足的训练和测试资源。

使用方法

在使用Internet Advertisements Dataset时，首先需将属性名与记录文件中的列进行匹配，以理解每个特征的具体含义。数据集以逗号分隔格式存储，易于导入和使用。针对数据挖掘目标，即创建一个能够区分广告和非广告的分类模型，用户需要先对数据进行清洗和预处理，处理连续特征缺失的问题，并选择合适的特征进行模型训练。

背景与挑战

背景概述

Internet Advertisements Dataset是一款专注于互联网广告识别领域的数据集，其创建旨在为研究人员提供一份详尽的广告数据资源，以促进相关算法和模型的发展。该数据集由不知名的专业团队或机构于近年构建，针对的核心研究问题是图像是否为广告的自动分类。数据集涵盖了3279个实例，其中2821个为非广告图像，458个为广告图像，包含了1558个属性，为研究互联网广告的自动识别提供了丰富的特征维度。该数据集的出现，对互联网内容过滤、广告识别等领域的科学研究产生了显著影响。

当前挑战

尽管Internet Advertisements Dataset为广告识别领域的研究提供了宝贵的资源，但在使用该数据集时研究者仍面临诸多挑战。首先，数据集中的连续特征在28%的实例中缺失，这要求研究者在构建模型前必须进行适当的数据预处理。其次，数据集的属性数量众多，达到了1558个，如何有效提取和选择与广告识别相关的特征是一大挑战。此外，构建一个准确度高的分类模型需要解决如何处理高度不平衡的数据分布问题，即非广告图像的数量远多于广告图像。这些挑战对研究人员的算法设计、数据处理能力提出了较高的要求。

常用场景

经典使用场景

在互联网广告识别领域，Internet Advertisements Dataset 数据集的经典使用场景在于构建图像分类模型，以鉴别图像是否为广告内容。该数据集提供了丰富的图像特征，如尺寸、比例及URL相关信息，为研究人员提供了充足的训练数据，使得模型能够有效地识别并区分广告与非广告图像。

解决学术问题

该数据集解决了学术研究中对于互联网广告自动识别的问题，其包含的多样化和细致化的图像特征使得研究者在进行机器学习和数据挖掘时，能够构建出更为准确和鲁棒的分类模型。这对于净化网络环境，提高互联网内容质量具有重要的学术意义和社会影响。

实际应用

实际应用中，Internet Advertisements Dataset 数据集的应用场景广泛，例如在广告过滤系统、内容审核平台以及用户行为分析等领域，通过该数据集训练出的模型能够帮助企业和机构有效识别并管理网络广告内容，进而优化用户体验和提升广告投放效率。

数据集最近研究