pubacc/AniMINT
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/pubacc/AniMINT
下载链接
链接失效反馈官方服务:
资源简介:
AniMINT是一个用于评估视觉语言模型(VLMs)是否能够理解UI动画的数据集,超越了静态截图的理解。数据集包含300个密集注释的UI动画视频,来自移动、网页和桌面界面。每个动画都注释了:1. 动画的起始和结束帧;2. 动画的感兴趣区域;3. 上下文信息;4. 用户输入信息(如果有);5. 10个独特的人类注释,描述动画效果;6. 10个独特的人类注释,描述动画意义;7. 动画目的的分类。数据集旨在支持以下研究:UI动画理解;多模态和视频语言评估;UI代理感知;基于运动的界面推理。
AniMINT is a dataset for evaluating whether vision language models (VLMs) can understand UI animations beyond static screenshots. The dataset contains 300 densely annotated UI animation videos from mobile, web, and desktop interfaces. Each animation is annotated with: 1. Start and end frame of the animation; 2. Animation region of interest(s); 3. Context information; 4. User input information, if any; 5. 10 unique human-annotated, open-ended descriptions of the animation effect; 6. 10 unique human-annotated, open-ended descriptions of the animation meaning; 7. Categorization of animation purpose. The dataset is intended to support research on: UI animation understanding; multimodal and video-language evaluation; UI agent perception; motion-grounded interface reasoning.
提供机构:
pubacc
搜集汇总
数据集介绍

构建方式
AniMINT数据集旨在弥补现有视觉语言模型在理解用户界面动画方面的不足。该数据集精心收集了300段来自移动端、网页端和桌面端的高密度标注用户界面动画视频。每段动画均经过系统化标注,涵盖动画起止帧、感兴趣区域、上下文信息及用户输入等基础要素。尤为关键的是,每段视频由人类标注员撰写了10条关于动画效果与10条关于动画含义的开放式描述,并依据七类动画目的(如过渡、演示、反馈等)进行分类,从而构建起一个多维度的语义标注体系。
使用方法
AniMINT主要面向视频分类与视觉问答等任务,可作为评估视觉语言模型对动态界面理解的基准测试集。使用时,研究人员可将数据集中的动画视频与对应的开放式标注配对,通过对比模型生成的动画效果与含义描述与人类标注的一致性,量化模型的理解能力。数据集以CC BY-NC-ND 4.0许可协议发布,仅供非商业研究与评估用途。使用者需注意数据集可能包含第三方界面资产,并遵守相关权利人要求,必要时可通过联系邮箱进行数据移除请求。
背景与挑战
背景概述
在用户界面(UI)研究领域,动态交互行为已成为现代数字体验的核心要素,然而现有视觉语言模型(VLM)的评估体系长期局限于静态截图,忽略了动画在信息传递、用户引导与反馈中的关键作用。为填补这一空白,密歇根大学的研究人员于2026年发布了AniMINT(UI AniMation INTerpretation Dataset),该数据集由Chen Liang、Xirui Jiang等学者主导构建,旨在系统评估VLM对UI动画的深层理解能力,涵盖移动端、网页与桌面三大平台的300段高精度标注动画视频。AniMINT围绕“动画效果描述”与“动画含义解读”两个维度,为每段视频提供了10条人工撰写的开放性文本标注,并定义了七类动画目的,从而建立了一个多模态、视频理解的基准测试,推动了UI感知与运动感知接口推理的研究进程。
当前挑战
AniMINT所解决的领域问题在于,现有VLM评测任务多聚焦于静态图像或简单时序分析,难以捕捉UI动画中蕴含的动态语义与交互意图,例如动画在传达系统状态、用户反馈或引导操作时的细微差别。构建过程中面临的挑战包括:首先,需要从纷繁复杂的移动、网页及桌面界面中采集并裁剪出0.4至5秒的动画片段,确保其代表性并避免侵犯第三方版权;其次,设计七类互斥的动画目的标签并确保人工标注者对动态效果的描述和含义解读达成一致,需经过多轮校准以避免歧义;最后,由于动画的时序性,标注区域、起点终点帧的精确标定以及上下文信息的结构化记录均对数据质量提出了极高要求。
常用场景
经典使用场景
在人机交互与视觉语言模型交叉研究的前沿领域,AniMINT数据集为评估模型对用户界面动态变化的理解能力提供了宝贵的资源。其经典使用场景聚焦于多模态模型是否能从句静态的屏幕截图跃升至对UI动画的深度解析,涵盖移动端、网页端及桌面端共计300个经过精细标注的动画片段。研究者可依托该数据集,考察模型在识别动画起始帧、划定感兴趣区域、理解用户输入上下文等多维度任务上的表现,从而推动视觉语言模型从简单的感知走向对界面交互语义的深化认知。
解决学术问题
在学术探索层面,AniMINT着力解决视觉语言模型对UI动画理解缺乏系统性评估这一关键难题。此前模型多局限于静态界面的理解,忽略了动画的进程性语义与交互意图。该数据集通过提供十组人工撰写的动画效果描述与动画含义解释,为检验模型能否捕捉运动形态背后的交互目的与系统状态搭建了可靠基准。其提出的七大动画用途分类体系,更为厘清过渡、演示、反馈、高亮等动画功能的语言表征提供了严谨分析框架,有力推动了多模态推理与具身感知研究的进展。
实际应用
面向实际应用场景,AniMINT在智能界面代理、无障碍设计与自动化测试等领域展现出重要价值。借助该数据集,开发者可训练视觉语言模型精准解读弹窗抖动、页面流转等动态反馈,使其具备向视障用户提供自然语言界面导航指引的能力。同时,该数据集还能赋能自动化测试工具,使其不再仅依据像素变化判断UI异常,而是理解动画传达的潜在含义,从而提升软件质量保障的智能水平,为人机交互的流畅与包容性提供坚实技术支撑。
数据集最近研究
最新研究方向
AniMINT数据集的问世标志着视觉语言模型研究从静态界面截图迈入动态界面动画理解的新纪元。当前前沿方向聚焦于评估VLM对UI动画的语义解读能力——涵盖动画效果的精确描述、交互意图的深度推理及界面状态的动态感知。该基准通过300段高密度标注的多平台界面动画视频,配合七类动画目的标签及十组独立人工注释的意义与效果描述,为多模态模型在移动、网页及桌面端提供细粒度评估尺度。相关工作紧扣人机交互与计算机视觉的交叉热点,尤其关注模型能否超越单纯的运动检测,实现与人类认知对齐的动画理解,这对提升UI代理的自主推理及无障碍交互系统的感知精度具有里程碑式影响。
以上内容由遇见数据集搜集并总结生成



