five

xlangai/ubuntu_osworld_file_cache

收藏
Hugging Face2026-05-07 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/xlangai/ubuntu_osworld_file_cache
下载链接
链接失效反馈
官方服务:
资源简介:
OSWorld文件缓存数据集是支持OSWorld项目的评价文件的高速缓存,提供可访问性和可靠性保证。它包含了多种应用程序的评价文件,如Chrome浏览器、Firefox浏览器、GIMP图像编辑器等,每个应用程序文件夹下有具体的评价场景,包含截图、文档、多媒体文件等多种类型的评价资产。

The OSWorld File Cache dataset is a file cache that supports the OSWorld project, providing accessibility and reliability guarantees for evaluation files. It contains evaluation files for various applications such as Chrome browser, Firefox browser, GIMP image editor, etc., with each application folder containing specific evaluation scenarios that include screenshots, documents, multimedia files, and various other types of evaluation assets.
提供机构:
xlangai
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是OSWorld项目为保障多模态智能体在真实计算机环境中评测文件的可靠访问而构建的文件缓存库。原始评测文件托管于Google Drive,常因链接失效或访问受限而影响研究的可复现性。为应对这一挑战,团队将文件迁移至HuggingFace平台,依托其强大的基础架构实现稳定托管。数据集按应用类别组织目录结构,涵盖Chrome、Firefox、GIMP、LibreOffice套件、Thunderbird及VSCode等主流软件的评测场景,每个类别下再细分具体评测案例的子文件夹,存放对应的图片、文档、数据集及配置文件等资源。迁移过程严格保证了文件的完整性与原始命名规范,并同步更新了OSWorld评测JSON配置文件中的引用地址,确保新缓存的接入无缝且高效。
特点
该数据集的显著特色在于其高度的组织化与一致性。目录结构完全镜像OSWorld原始评测样例的布局,使研究者能够快速定位特定应用场景下的资源。文件类型极为多样,不仅包括截图与参考图像,还涵盖文本、电子表格、演示文稿、音视频及压缩归档等,全面支撑复杂多模态任务的评估需求。依托Git LFS技术进行版本控制,确保了每份文件的完整性与可追溯性。同时,借助HuggingFace的全球CDN加速,实现了高速下载与稳定的全球访问,彻底消除了外部存储链接失效的风险。所有文件均公开可读,无需身份验证,极大降低了研究门槛,促进了可复现的科学研究。
使用方法
研究者可通过多种途径便捷地利用此缓存。直接访问时,使用形如 https://huggingface.co/datasets/xlangai/ubuntu_osworld_file_cache/resolve/main/{应用类别}/{场景ID}/{文件名} 的URL即可获取特定资源。该缓存已无缝集成至OSWorld的评测脚本中,原始Google Drive链接自动替换为新的HuggingFace地址,确保离线评测流程的顺畅运行。对于程序化访问,推荐使用HuggingFace Hub库,通过hf_hub_download函数指定仓库ID与文件路径进行下载,便于批量处理与自动化流水线。若遇到文件缺失或访问问题,可查阅OSWorld主仓库的最新配置或在其GitHub页面上提交详细问题报告,以获取社区支持。
背景与挑战
背景概述
OSWorld是由XLang Lab于2024年推出的一个可扩展的真实计算机环境,旨在为多模态智能体提供任务设置、基于执行的评估以及跨操作系统与应用的交互式学习支持。该数据集对应其文件缓存库‘ubuntu_osworld_file_cache’,专为解决评估文件原本托管于Google Drive时面临的链接失效、下载不稳定等可靠性问题而建。核心研究聚焦于构建能够自主操作计算机界面的通用多模态智能体,从而推动人机交互与自动化领域的进展。该数据集通过迁移至HuggingFace平台,不仅保障了文件的持续可访问性,还为相关研究提供了版本一致、响应迅速的评估素材。其在多模态智能体社区中具有重要影响力,为后续工作奠定了标准化、可复现的实证基础。
当前挑战
该数据集面临的核心领域挑战在于,多模态智能体需在动态、异构的计算机环境中执行复杂任务,而现有基准测试往往缺乏对真实操作场景的充分覆盖,尤其在交互执行与错误恢复方面存在评估瓶颈。构建过程中,主要挑战包括:首先,须将数千份评估文件从Google Drive迁移至HuggingFace基础设施,过程中需严格保持文件完整性、命名一致性及格式无损;其次,需全面更新OSWorld项目内JSON配置文件中的文件链接,确保每个引用路径均指向新的缓存地址;此外,面对跨应用类别(如Chrome、LibreOffice等)的多样化文件类型,需合理组织存储结构以支持高效的程序化访问与版本控制,最终实现全球范围内的高带宽、低延迟文件分发。
常用场景
经典使用场景
在人工智能与计算机视觉交叉领域,ubuntu_osworld_file_cache数据集作为OSWorld项目的核心文件缓存,为多模态智能体的研究提供了标准化、高可靠性的评估文件支持。其最经典的使用场景是配合OSWorld框架,用于构建和评测能够在真实计算机环境中自主执行跨应用任务的多模态代理。研究者依托该数据集,可以设计涵盖浏览器操作、办公软件处理、图像编辑、邮件客户端使用以及多应用协同等复杂场景的基准测试,从而系统性地评估智能体在视觉感知、指令理解、动作规划与执行等方面的综合能力。
解决学术问题
该数据集有效解决了多模态智能体评估中普遍存在的文件访问不稳定、研究结果难以复现等关键学术瓶颈。通过将原先依赖Google Drive的碎片化评估文件统一迁移至HuggingFace基础设施,该缓存确保了所有测试素材的持久可访问性与版本一致性。这为学术界提供了一个可靠、高效的实验平台,使得研究者能够聚焦于智能体算法本身的创新,而非被底层数据获取问题所困扰。其意义在于,该数据集极大地促进了多模态自主代理领域的标准化评估与可重复性研究,加速了从基础模型能力到真实世界应用效果的学术探索进程。
衍生相关工作
围绕ubuntu_osworld_file_cache数据集及其支撑的OSWorld框架,学术界已经衍生出多项具有影响力的研究成果。最直接的相关工作是OSWorld核心论文(arXiv:2404.07972),该论文首次提出了可扩展的真实计算机环境用于多模态智能体评估,并依托此缓存建立了首个涵盖多系统、多应用的综合基准测试。此外,XLang Lab团队基于该数据集持续开展智能体学习与交互方法的研究,推动了如跨应用任务迁移学习、基于视觉的GUI导航等方向的技术突破。该缓存也为后续开发的自动化评估工具、强化学习训练平台等衍生系统提供了不可或缺的数据基础设施,形成了从数据到模型再到应用的完整研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作