idm-eval-set

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/p-doom/idm-eval-set

下载链接

链接失效反馈

官方服务：

资源简介：

IDM Eval Set 是一个用于评估 macOS 屏幕录制上逆向动力学模型的验证集。每个样本包含一个 5 秒的真实桌面使用片段（如浏览器、IDE、终端）以及操作系统级别捕获的真实动作日志。数据集的主要任务是根据短屏幕录制预测产生观察到的屏幕变化的用户输入动作序列（如按键、鼠标点击、滚动等）。数据集包含 51 个剪辑和 11 个录制，总共有 10,914 个原始动作。每个剪辑的分辨率为 1728x1080，持续时间为 5 秒。数据集结构包括视频剪辑和对应的 JSON 动作日志文件，以及原始输入事件流和完整源录制文件。动作日志格式详细记录了时间戳、动作类型（如按键、鼠标点击、滚动等）及其参数。此外，数据集还提供了手动标注的可见性标签，用于评估动作的可见性（直接可见、可推断、不可预测）。

创建时间：

2026-04-02

原始信息汇总

IDM Eval Set 数据集概述

数据集基本信息

名称：IDM Eval Set
主要任务类别：视频分类
标签：逆动力学、屏幕录制、动作识别、macOS、VLM基准测试
许可证：MIT
数据规模：小于1K样本
简介：一个用于在macOS屏幕录制上评估逆动力学模型的验证集。每个样本是一个5秒钟的真实桌面使用（浏览器、IDE、终端）剪辑，并配有一个在操作系统级别捕获的真实动作日志。任务：给定一个简短的屏幕录制，预测产生所观察到的屏幕变化的用户输入动作序列（按键、鼠标点击、滚动）。

数据集结构

clips_recording_{uuid}_seg{N}/
- clip_000_{tag}.mp4：5秒屏幕录制（1728x1080分辨率）
- clip_000_{tag}.json：真实动作日志
editing-work/
- input_{uuid}_seg{N}.msgpack：原始输入事件流
- recording_{uuid}_seg{N}.mp4：完整源录制

统计数据

剪辑数量：51
录制数量：11
原始动作总数：10,914
分辨率：1728 x 1080
剪辑时长：5秒

标签分布

标签	数量
scroll/drag	18
keystroke-heavy	17
mixed	4
click-heavy	4
hotkeys	2
hard-case	1

动作日志格式

每个剪辑的JSON文件包含：

start_s：开始时间（秒）
end_s：结束时间（秒）
tag：标签
actions：动作列表，每个动作为 [时间戳（绝对微秒）, [动作类型, 参数]]

动作类型与参数

动作类型：KeyPress, KeyRelease, MousePress, MouseRelease, MouseMove, MouseScroll, ContextChanged
KeyPress参数：[键码, 键名]
MousePress参数：[按钮, x, y]（此版本未捕获坐标）
MouseScroll参数：[dx, dy, x, y]
时间戳说明：时间戳为绝对微秒，需减去 start_s * 1e6 以获得相对于剪辑的时间。

标注信息

annotations.json 文件包含每个剪辑中每个主要动作（KeyPress, MousePress, MouseScroll）的手动可见性标签。键为剪辑路径，值将动作索引映射到以下三个标签之一：

标签	数量	含义
`visible`	510	效果在帧中直接可见
`inferable`	266	效果可以推断但非直接可见
`not_predictable`	34	仅从视频无法预测

使用建议

在评分时，可使用这些标签过滤真实数据——例如，从召回率计算中排除 not_predictable 动作。

搜集汇总

数据集介绍

构建方式

在构建IDM评估数据集时，研究者通过捕捉真实macOS桌面使用场景，包括浏览器、集成开发环境和终端操作，录制了11段屏幕视频，并同步记录了操作系统层面的用户输入事件流。这些原始数据被分割为51个5秒时长的视频片段，每个片段均配以精确到微秒的动作日志，标注了按键、鼠标点击、滚动等事件，同时通过人工标注为每个主要动作添加了可见性标签，以区分直接可见、可推断或无法预测的动作类型。

特点

该数据集以高分辨率（1728x1080）的屏幕录制视频为核心，覆盖了滚动、拖拽、密集击键、混合操作等多种交互模式，其动作日志采用结构化JSON格式，提供了绝对时间戳和详细的事件参数。独特之处在于包含了手动标注的可见性标签，将动作分为可见、可推断和不可预测三类，这为评估逆动力学模型的预测能力提供了细粒度基准，尤其适用于处理视觉变化与用户输入间复杂关联的研究场景。

使用方法

使用该数据集时，研究者可加载视频片段与对应的JSON动作日志，将时间戳转换为片段相对值后，提取用户输入序列作为真实标签。通过结合标注文件，可过滤不可预测的动作以优化评估指标，如召回率计算。数据集适用于训练或测试逆动力学模型，旨在从屏幕变化中推断用户行为，也可用于动作识别或视觉语言模型的基准测试，支持在真实桌面交互环境中验证算法的泛化能力。

背景与挑战

背景概述

随着人机交互与具身智能研究的深入，理解用户意图与行为成为关键。IDM Eval Set于2024年由相关研究团队构建，专注于评估逆向动力学模型在真实桌面环境中的性能。该数据集的核心研究问题在于如何从屏幕录像的视觉变化中精准反推出用户执行的具体输入操作序列，如按键与鼠标事件。它填补了基于视觉的交互行为理解领域的评估空白，为开发能够理解复杂桌面任务的人工智能代理提供了重要基准，对自动化流程、辅助技术及通用智能体的发展具有推动作用。

当前挑战

该数据集旨在解决从视觉观察中推断用户交互行为这一核心领域问题，其核心挑战在于屏幕内容变化与底层输入动作间常存在复杂、模糊的映射关系，例如滚动操作的效果可能延迟显现，或按键输入在视觉上不可直接观测。在构建过程中，挑战主要源于高质量、同步的多模态数据采集与标注。需要精确捕获高分辨率屏幕录像与操作系统级别的原始输入事件流，并确保时间戳的严格同步。此外，对动作进行人工可见性标注（如‘直接可见’、‘可推断’、‘不可预测’）是一项繁重且需要领域知识的工作，旨在界定模型能力与任务边界的合理范围。

常用场景

经典使用场景

在计算机视觉与交互建模领域，IDM Eval Set 为评估逆向动力学模型提供了基准测试平台。该数据集的核心应用场景是分析短时屏幕录像，以预测用户输入动作序列，如键盘敲击与鼠标交互。通过提供真实桌面环境下的五秒剪辑片段及对应的操作系统级动作日志，它支持研究者训练和验证模型从视觉变化中推断底层交互行为的能力，尤其在浏览器、集成开发环境和终端等复杂界面中，为动作识别任务设定了标准化评估框架。

实际应用

在实际应用层面，IDM Eval Set 可服务于智能辅助系统、自动化测试工具和交互分析平台的开发。例如，基于屏幕录像的动作预测技术能够用于构建自适应用户界面，优化工作流程效率，或辅助无障碍交互设计。在软件测试中，该数据集支持生成模拟用户行为的自动化脚本，减少人工测试成本。此外，它也为跨平台交互建模提供了数据基础，助力开发更智能的桌面环境监控与支持系统。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在视觉语言模型基准测试、屏幕内容理解和交互行为生成等领域。例如，研究者利用其构建了针对逆向动力学任务的评估协议，开发了基于深度学习的序列预测模型，以从视频中推断键盘与鼠标事件。这些工作不仅扩展了动作识别技术在桌面环境中的应用，还促进了多模态学习方法的创新，为后续在更广泛界面下的交互建模研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集