apps_gimp_vscode
收藏Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/oluwafikayo/apps_gimp_vscode
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于创建和评估促销视频资产的工具和脚本,包括任务定义文件、评估脚本和资产文件。它旨在帮助用户通过GIMP、VS Code和VLC等工具准备促销视频的标题卡片、脚本和视频剪辑,并通过评估器检查各项任务的完成情况。
创建时间:
2026-01-23
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Promo Assets Task - Revised Files
- 托管地址: https://huggingface.co/datasets/oluwafikayo/apps_gimp_vscode
数据集内容
包含文件
- task.json: 修订后的任务定义,包含人性化指令。
- evaluator_2181657e.py: 用于HuggingFace的独立Python评估器脚本。
关联资产文件(需用户自行上传)
promo_base.png: 用于GIMP编辑的基础图像。promo_script.txt: 模板/空脚本文件。promo_clip.mp4: 短视频剪辑。
核心用途
该数据集旨在为“冬季促销2025”宣传视频的资产准备任务提供一套修订后的任务定义与自动化评估脚本。
任务指令对比
修订前(LLM生成/机械式)
指令为机械式描述,涉及使用GIMP、VS Code和VLC处理桌面上的promo_base.png、promo_script.txt和promo_clip.mp4文件,具体要求包括调整图像尺寸、修改外观并导出为PNG和JPEG格式。
修订后(自然/人性化)
指令以更自然、人性化的方式描述同一任务,上下文为“我正在制作冬季促销2025宣传视频”,并指导用户打开GIMP处理基础图像、调整尺寸、添加叠加文本或更改颜色以制作标题卡,然后导出文件。
评估器检查项
评估器脚本会输出以下检查项的SUCCESS/FAIL状态:
图像检查
PNG_EXISTS_SUCCESS/FAIL: 检查promo_title.png是否存在。PNG_RESOLUTION_SUCCESS/FAIL: 检查PNG分辨率是否为1280x720。PNG_MODIFIED_SUCCESS/FAIL: 检查PNG是否与基础图像不同(哈希值及像素采样)。JPG_EXISTS_SUCCESS/FAIL: 检查promo_title.jpg是否存在。JPG_RESOLUTION_SUCCESS/FAIL: 检查JPG分辨率是否为1280x720。
脚本检查
SCRIPT_EXISTS_SUCCESS/FAIL: 检查promo_script.txt是否存在。SCRIPT_INTRO_HEADING_SUCCESS/FAIL: 检查INTRO标题是否存在。SCRIPT_INTRO_CONTENT_SUCCESS/FAIL: 检查INTRO部分内容是否正确。SCRIPT_MIDDLE_HEADING_SUCCESS/FAIL: 检查MIDDLE标题是否存在。SCRIPT_MIDDLE_CONTENT_SUCCESS/FAIL: 检查MIDDLE部分内容是否正确。SCRIPT_OUTRO_HEADING_SUCCESS/FAIL: 检查OUTRO标题是否存在。SCRIPT_OUTRO_CONTENT_SUCCESS/FAIL: 检查OUTRO部分内容是否正确。
VLC配置检查
VLC_CONFIG_EXISTS_SUCCESS/FAIL: 检查VLC配置文件是否存在。VLC_SUBTITLES_SUCCESS/FAIL: 检查字幕选项是否启用(非零值)。VLC_VOLUME_SUCCESS/FAIL: 检查音量是否设置为100。
播放列表检查
PLAYLIST_EXISTS_SUCCESS/FAIL: 检查promo_playlist.xspf是否存在。PLAYLIST_VALID_XML_SUCCESS/FAIL: 检查播放列表是否为有效XML。PLAYLIST_TRACK_COUNT_SUCCESS/FAIL: 检查播放列表是否恰好包含2个曲目。PLAYLIST_VIDEO_FIRST_SUCCESS/FAIL: 检查第一个曲目是否为promo_clip.mp4。PLAYLIST_IMAGE_SECOND_SUCCESS/FAIL: 检查第二个曲目是否为promo_title.png。
鲁棒性特性
图像验证
- 使用MD5哈希比较检测相同文件。
- 采用12点像素采样进行相似性检测。
- 可优雅处理不同图像尺寸。
脚本验证
- 规范化行尾(CRLF → LF)。
- 处理弯引号与直引号。
- 去除空白字符以进行内容比较。
- 验证每个标题后是否存在空行。
VLC配置验证
- 检查多个配置位置。
- 反黑客机制:要求至少10行非注释行。
- 处理各种“假”值:0、false、no、none、off。
播放列表验证
- 处理带或不带XML命名空间的XSPF文件。
- 对文件路径进行URL解码。
- 如果samefile()失败,则使用回退文件名匹配。
搜集汇总
数据集介绍

构建方式
在多媒体内容创作领域,apps_gimp_vscode数据集通过精心设计的任务定义与评估框架构建而成。其核心构建方法依赖于一个结构化的任务配置文件(task.json),该文件包含了经过人工优化的自然语言指令,旨在模拟真实工作场景中的需求描述。同时,数据集配备了一个独立的Python评估脚本(evaluator_2181657e.py),该脚本实现了对任务执行结果的自动化验证。构建过程强调资产文件的完整性,包括基础图像、脚本模板和视频剪辑,这些资源共同构成了一个闭环的测试环境,确保了任务的可执行性与评估的可靠性。
特点
该数据集的一个显著特点是其指令的自然语言化处理,将原本机械的LLM生成指令转化为更贴近人类表达方式的描述,从而提升了任务的可理解性与实用性。在技术层面,数据集集成了多模态验证机制,涵盖图像处理、文本编辑与媒体播放配置等多个维度。评估脚本具备高度的鲁棒性,例如通过MD5哈希与多点像素采样来检测图像修改,支持多种行尾格式与标点变体的文本比对,并能灵活解析VLC配置文件和XSPF播放列表。这种设计使得数据集能够细致地检验任务执行的完整性与准确性。
使用方法
使用该数据集时,首先需将评估脚本上传至HuggingFace平台,并获取其原始URL地址。随后,在任务配置文件(task.json)中更新此URL,并确保所有相关的资产文件(如promo_base.png, promo_script.txt, promo_clip.mp4)也已正确上传且路径配置无误。执行任务时,系统将根据配置文件中的指令调用评估脚本。该脚本会自动化地检查生成物是否符合预设标准,例如图像尺寸、内容修改、脚本结构完整性、播放列表格式等,并以清晰的SUCCESS/FAIL形式输出每一项验证结果,从而为用户提供一个标准化的任务完成度评估流程。
背景与挑战
背景概述
在人工智能与软件自动化交互领域,多模态任务执行评估数据集扮演着关键角色。apps_gimp_vscode数据集应运而生,旨在构建一个能够评估智能体在真实桌面环境中,综合运用图像编辑、文本处理与媒体播放等多种软件工具完成复杂创意任务能力的基准测试平台。该数据集由研究团队通过精心设计的人性化指令与自动化评估脚本创建,核心研究问题聚焦于如何准确衡量智能体对自然语言指令的理解、跨软件工作流的规划与执行,以及对任务成果的质量控制,为推进通用人工智能在办公与创意场景中的实际应用提供了重要的实证基础。
当前挑战
该数据集旨在解决智能体在跨软件、多步骤创意任务自动化执行领域所面临的评估挑战,其核心难题在于如何设计一套全面且鲁棒的自动化评估体系,以精确量化智能体对图像修改、脚本内容生成、媒体播放配置等多样化子任务的完成质量与合规性。在构建过程中,挑战同样显著:一是需要设计能够有效区分任务成果与原始素材的检测机制,例如通过哈希值与多点像素采样来验证图像的真实编辑;二是必须处理不同软件配置文件的格式差异与内容解析,确保评估脚本对各种边缘情况具备容错能力;三是需将原本机械的指令转化为自然流畅的人类语言描述,以提升任务场景的真实性与评估的生态效度。
常用场景
经典使用场景
在多媒体内容创作与自动化处理领域,apps_gimp_vscode数据集为评估智能体在跨软件任务执行中的能力提供了标准化的测试环境。该数据集通过模拟真实世界中的促销视频制作流程,要求智能体协同使用GIMP、VS Code和VLC等工具,完成图像编辑、脚本编写与媒体播放配置等一系列操作。其经典使用场景在于为多模态智能体或具身智能系统构建一个端到端的评估基准,以检验其在理解自然语言指令、操作图形界面软件以及管理文件资源方面的综合性能。
实际应用
在实际应用层面,apps_gimp_vscode数据集所模拟的任务流程直接对应于数字营销、内容创作等行业的日常工作。例如,自动化生成社交媒体促销素材、批量处理产品展示图片与视频剪辑等。通过基于该数据集的模型训练与评估,可以开发出能够辅助或替代人类执行重复性多媒体处理任务的智能助手,从而提升内容生产线的效率,降低对专业软件操作技能的门槛,实现创意工作流程的智能化升级。
衍生相关工作
围绕该数据集的评估范式,衍生出了一系列关注桌面环境智能体与工具使用的研究工作。例如,旨在提升智能体长序列任务规划能力的强化学习框架、专注于跨模态指令理解的视觉语言模型微调方法,以及针对软件操作轨迹进行预测与生成的序列建模技术。这些工作共同构成了一个新兴的研究方向,即如何让AI智能体像人类一样熟练使用复杂的计算机软件生态系统来完成创造性或事务性工作。
以上内容由遇见数据集搜集并总结生成



