datasets_ml_all_ads_1M

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/SoftalkAppleProject/datasets_ml_all_ads_1M

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于MAGAZINEgts ground-truth存储格式的Softalk杂志所有广告的种子数据集，包含源页和标签掩码图像。最大像素设置为1M像素，所有页和标签掩码图像均为PNG格式。目前包含7,109个元素，最终将包含7,157个在Softalk杂志（1980-84）中出现的广告。

This is a seed dataset comprising all advertisements from the Softalk magazine, based on the MAGAZINEgts ground-truth storage format. It includes source pages and label mask images, with the maximum pixel count set to 1 million pixels. All pages and label mask images are in PNG format. Currently, the dataset contains 7,109 elements and is expected to eventually include 7,157 advertisements that appeared in Softalk magazine from 1980 to 1984.

创建时间：

2019-10-04

原始信息汇总

数据集概述

数据集名称

datasets_ml_all_ads_1M

数据集描述

本数据集是基于MAGAZINEgts地真存储格式的Softalk杂志（1980-84）所有广告的源页面和标签掩码图像的“种子”数据集。所有页面和标签掩码图像均为PNG格式，最大像素设置为1M像素。

数据集内容

元素数量：当前包含7,109个元素，最终将包含7,157个广告。
数据状态：尽管存在少量数据不一致，但该数据集已准备好供研究人员用于机器学习模型训练。
数据用途：用于训练机器学习模型以识别杂志广告，包括实际和预测的广告边界框尺寸。

数据集结构

图像格式：PNG
最大像素：1M像素
子目录：包含一个名为noncase的子目录，其中包含2,288个无广告页面的图像及其对应的空白标签图像。

数据集扩展性

模型训练：该“种子”数据集可用于生成更详细的模型训练数据集，通过映射广告到PRESSoo发行规则的各种参数模式。
非案例计算补充子集：提供2,288个无广告页面的图像和标签，用于创建案例和非案例训练元素的平衡分布。

数据集使用工具

Snorkel框架：计划集成到FactMiners Toolkit中，用于处理标签、转换和切片功能。

数据集更新

数据不一致：当前数据集不包括待解决的数据不一致项，这些将在未来解决。

数据集链接

XML文件：Softalk杂志的MAGAZINEgts文件（约13+ MB）可在此处下载。
GitHub存储库：页面图像和机器学习标签掩码图像可在此GitHub链接获取。

搜集汇总

数据集介绍

构建方式

该数据集datasets_ml_all_ads_1M基于MAGAZINEgts标准构建，专门用于Softalk杂志（1980-84年）的广告识别任务。数据集包含7,109个元素，涵盖了杂志中的广告页面及其对应的标签掩码图像，图像格式为PNG，最大像素设置为1M。数据集的构建依赖于MAGAZINEgts的元模型和元数据，通过PRESSoo发布规则和Softalk广告模型的描述，生成广告的实际和预测边界框。此外，数据集还通过FactMiners Toolkit中的Xquery查询和Python方法，生成了2,288个无广告页面的非案例子集，以支持模型训练的平衡性。

特点

datasets_ml_all_ads_1M数据集的主要特点在于其基于MAGAZINEgts标准的复杂文档结构和内容描述模型，结合了cidocCRM、FRBRoo和PRESSoo等标准。数据集不仅包含广告页面的图像和标签掩码，还提供了广告的实际和预测边界框，支持模型对广告位置和大小的理解。此外，数据集还包含了2,288个无广告页面的非案例子集，帮助模型学习广告与非广告页面的区别，增强了数据集的多样性和平衡性。

使用方法

该数据集可用于训练机器学习模型，以识别Softalk杂志中的广告。使用者可以通过数据集中的广告页面图像和标签掩码，结合实际和预测的边界框，进行模型训练。数据集还提供了非案例子集，用户可以将其与广告数据结合，生成平衡的训练、评估和测试集。此外，数据集支持通过PRESSoo发布规则生成更详细的训练数据集，用户可以利用FactMiners Toolkit中的工具，进一步处理和扩展数据集，以满足特定的模型训练需求。

背景与挑战

背景概述

datasets_ml_all_ads_1M数据集是由FactMiners和The Softalk Apple Project团队创建的，专门用于训练机器学习模型以识别Softalk杂志（1980-84年）中的广告。该数据集基于MAGAZINEgts格式，包含了Softalk杂志中所有广告的源页面和标签掩码图像，图像格式为PNG，最大像素设置为1百万像素。数据集目前包含7,109个元素，预计最终将达到7,157个，涵盖了杂志中的所有广告。该数据集的创建旨在支持复杂文档结构和内容描述模型的训练，特别是通过MAGAZINEgts格式提供的集成模型，结合cidocCRM、FRBRoo和PRESSoo标准，为机器学习研究提供了丰富的资源。

当前挑战

datasets_ml_all_ads_1M数据集在构建过程中面临了多项挑战。首先，数据集的完整性依赖于解决少量数据不一致性问题，这需要时间和资源。其次，尽管数据集已经可以用于模型训练，但其初始版本作为'种子'数据集，功能有限，未区分广告的大小、形状和页面位置，这限制了其直接应用的广泛性。此外，生成非案例计算补充子集以平衡训练数据分布，涉及复杂的元数据处理和计算，增加了数据集构建的复杂性。最后，数据集的进一步扩展和优化需要整合如Stanford DAWN的Snorkel框架等先进工具，以处理标签、转换和切片功能，这进一步提升了数据集的技术门槛。

常用场景

经典使用场景

在机器学习领域，datasets_ml_all_ads_1M数据集的经典应用场景主要集中在广告识别与分类任务中。该数据集包含了Softalk杂志（1980-84年）中所有广告的源页面和标签掩码图像，为模型训练提供了丰富的视觉和结构信息。通过这些数据，研究人员可以训练模型识别不同广告的尺寸、形状及其在页面上的位置，从而提升广告检测的准确性和鲁棒性。

衍生相关工作

基于datasets_ml_all_ads_1M数据集，衍生了许多经典工作，特别是在复杂文档结构建模和广告识别领域。例如，研究人员利用该数据集开发了基于PRESSoo规则的广告模型，进一步细化了广告尺寸、形状与页面位置的关系。此外，该数据集还启发了对非广告页面的研究，通过生成非案例数据集，提升了模型在广告与非广告页面识别任务中的表现。这些工作不仅丰富了广告识别的研究内容，还为复杂文档的自动化处理提供了新的方法论。

数据集最近研究