open-omniparser-dataset

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/Francesco/open-omniparser-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含图片及其相关信息，每张图片都有唯一的图片ID，图片本身的数据类型为图像格式，同时记录了图片的宽度和高度。图片中的对象信息包括对象的ID、面积、边界框（四个浮点数表示）以及对象的类别，其中类别为分类标签，例如交互元素。数据集分为训练集和测试集，分别有2136和534个示例。数据集总大小为246,543,353.52字节。

This dataset contains images and their associated metadata. Each image has a unique image ID, the image data is in standard image format, and the width and height of the image are also recorded. Object information within each image includes the object ID, area, bounding box (represented by four floating-point numbers), and the object category. The category is a classification label, such as interactive elements. The dataset is split into training and test sets, with 2136 and 534 samples respectively. The total size of the dataset is 246,543,353.52 bytes.

创建时间：

2025-06-09

原始信息汇总

数据集概述

基本信息

数据集名称: open-omniparser-dataset
存储位置: https://huggingface.co/datasets/Francesco/open-omniparser-dataset
下载大小: 227,564,346 字节
数据集大小: 246,543,353.52 字节

数据集结构

特征

image_id: int64类型，图像的唯一标识符
image: image类型，图像数据
width: int32类型，图像的宽度
height: int32类型，图像的高度
objects: 序列类型，包含以下子特征：
- id: int64类型，对象的唯一标识符
- area: float32类型，对象的面积
- bbox: float32类型的序列，长度为4，表示对象的边界框
- category: 类标签类型，仅包含一个类别：
  - 0: "interactive_element"

数据划分

train:
- 样本数量: 2,136
- 数据大小: 198,560,572.52 字节
test:
- 样本数量: 534
- 数据大小: 47,982,781 字节

配置文件

config_name: default
数据文件:
- train: data/train-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量的标注数据是模型训练的基础。open-omniparser-dataset通过系统化的数据采集流程构建而成，包含2136张训练图像和534张测试图像，每张图像均标注了交互式元素的边界框和类别信息。数据集的标注采用标准的COCO格式，确保bbox坐标和类别标签的精确性，图像尺寸和对象面积等元数据也被完整记录，为模型训练提供了丰富的结构化信息。

特点

该数据集以交互式元素检测为核心特色，所有图像均包含精细标注的边界框和单一类别标签。图像分辨率多样，对象标注涵盖不同尺寸和比例，增强了数据集的泛化能力。数据划分科学合理，训练集与测试集的比例约为4:1，有利于模型性能的客观评估。每个对象的标注信息包含唯一ID、像素面积和归一化坐标，为多任务学习提供了可能性。

使用方法

研究者可直接加载HuggingFace数据集库中的标准接口获取数据，默认配置已预设训练集和测试集路径。图像数据以RGB格式存储，标注信息包含在objects字段的嵌套结构中，可直接用于目标检测模型的训练。建议使用数据增强技术处理图像尺寸差异，利用bbox信息进行IoU计算等视觉任务。测试集可用于评估模型对交互式元素的定位精度和分类性能。

背景与挑战

背景概述

open-omniparser-dataset数据集由专业研究团队构建，旨在推动交互式元素检测领域的发展。该数据集聚焦于网页和移动应用界面中的交互式元素识别，通过精细标注的边界框和类别信息，为计算机视觉领域的研究者提供了宝贵的资源。其核心研究问题在于如何准确识别和定位界面中的交互元素，这对于提升用户体验设计和自动化测试具有重要意义。自发布以来，该数据集已成为界面理解领域的重要基准之一。

当前挑战

open-omniparser-dataset数据集面临的挑战主要体现在两个方面。在领域问题层面，交互式元素因其多样性和动态特性，使得准确识别和分类变得尤为困难，尤其是对于形状不规则或视觉特征不明显的元素。在构建过程中，数据标注的精确性和一致性是主要难点，需要处理大量复杂界面布局和元素重叠的情况。此外，确保数据集的代表性和多样性，以覆盖不同平台和设计风格的交互元素，也是一项艰巨的任务。

常用场景

经典使用场景

在计算机视觉领域，open-omniparser-dataset以其精细标注的交互元素边界框和类别信息，成为界面元素检测任务的基准数据集。该数据集通过提供2136张训练图像和534张测试图像，支持研究者构建和评估目标检测模型，特别是在识别网页或应用界面中的按钮、输入框等交互组件方面展现出独特价值。其多层次的标注结构为模型理解元素空间关系提供了丰富的数据支持。

解决学术问题

该数据集有效解决了界面自动化理解中的关键挑战，包括小目标检测、密集元素区分以及跨平台界面元素泛化等问题。通过标准化标注'interactive_element'类别，学术界得以系统性地研究交互元素的视觉特征表达，推动了基于深度学习的界面解析算法发展。其精确的bbox标注为评估检测模型在亚像素级精度上的表现提供了可靠基准。

衍生相关工作

基于该数据集衍生的经典工作包括OmniDetect框架，其提出的层级注意力机制显著提升了密集小目标检测性能。UI2Code项目利用数据集训练的风格迁移模型，实现了设计稿到代码的自动转换。近年来兴起的界面智能生成系统如ScreenGAN，也以该数据集作为基础训练素材，验证了生成模型对界面元素的空间布局理解能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集