five

UIPress

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/DesonDai/UIPress
下载链接
链接失效反馈
官方服务:
资源简介:
UIPress 是一个用于 UI-to-Code 生成任务的光学标记压缩数据集,受 DeepSeek-OCR 光学压缩启发。该数据集通过训练轻量 Conv 压缩模块,将约 6700 个视觉标记压缩到 256 个,旨在与 VisionZip、EfficientUICoder 等推理时方法进行公平对比。数据集支持四种压缩方法,包括分辨率缩放(Baseline)、VisionZip(Token 选择)、EfficientUICoder 策略(元素引导选择)和 UIPress 光学压缩(编码端压缩)。训练阶段需要 6×A40 GPU 进行分布式数据并行训练,耗时约 8-16 小时;评估阶段(全量 485)需要 6×A40 GPU 并行处理,耗时约 3-4 小时;CLIP 评分阶段需要 1×A40 GPU,耗时约 2 小时。
创建时间:
2026-03-23
原始信息汇总

UIPress 数据集概述

数据集简介

  • 数据集名称: UIPress: Optical Token Compression for UI-to-Code Generation
  • 核心目标: 受 DeepSeek-OCR 光学压缩启发,在 Qwen3-VL-8B 模型内部训练轻量级卷积压缩模块,旨在将约 6700 个视觉令牌压缩至 256 个,并与 VisionZip、EfficientUICoder 等推理时方法进行公平对比。

快速开始指南

  • 详细步骤: 请参阅 START_HERE.md 文件。
  • 环境设置:
    • 创建并激活 Conda 环境:conda create -n uipress python=3.11 -y && conda activate uipress
    • 安装依赖:pip install -r requirements.txt && playwright install chromium
  • 训练与评估:
    • 冒烟测试(单卡): CUDA_VISIBLE_DEVICES=0 python scripts/train_compressor.py --max_samples 20 --epochs 1 --batch_size 1 --grad_accum 1
    • 正式训练(6卡): torchrun --nproc_per_node=6 scripts/train_compressor.py --max_samples 50000 --epochs 5
    • 评估: ./scripts/run_all_evals.sh 485

压缩方法对比

方法 类型 需训练 评估脚本
分辨率缩放 Baseline eval_all.py --method resolution
VisionZip Token 选择 eval_all.py --method visionzip
EfficientUICoder 策略 元素引导选择 eval_all.py --method efficientui
UIPress 光学压缩 编码端压缩 eval_all.py --method uipress

硬件需求与时间估算

阶段 GPU 配置 预估时间
训练 6×A40 DDP 8-16 小时
评估(全量 485) 6×A40 并行 3-4 小时
CLIP 评分 1×A40 2 小时
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作