XRBENCH

Name: XRBENCH
Creator: Meta, Menlo Park, California, USA
Published: 2023-05-20 08:16:23
License: 暂无描述

arXiv2023-05-20 更新2024-06-21 收录

下载链接：

https://github.com/XRBench

下载链接

链接失效反馈

官方服务：

资源简介：

XRBENCH是一个专为元宇宙应用设计的机器学习基准套件，由Meta公司开发。该数据集包含多种MTMM工作负载，旨在评估和推动实时XR系统的性能。XRBENCH通过模拟真实工业用例，提供了复杂的工作负载依赖性和实时场景，以确保系统设计能够满足元宇宙中复杂的交互需求。数据集通过GitHub平台公开，支持研究者和工程师评估和优化XR设备中的ML系统。

XRBENCH is a machine learning benchmark suite specifically designed for metaverse applications, developed by Meta. This dataset includes a variety of MTMM workloads, aiming to evaluate and advance the performance of real-time XR systems. XRBENCH simulates real industrial use cases, providing complex workload dependencies and real-time scenarios to ensure that system designs can meet the sophisticated interaction requirements in the metaverse. The dataset is publicly available via the GitHub platform, supporting researchers and engineers in evaluating and optimizing ML systems in XR devices.

提供机构：

Meta, Menlo Park, California, USA

创建时间：

2022-11-16

搜集汇总

数据集介绍

构建方式

在扩展现实（XR）与元宇宙应用蓬勃发展的背景下，XRBENCH数据集应运而生，旨在为实时多任务多模型（MTMM）机器学习工作负载提供系统化评估基准。该数据集的构建基于工业界实际元宇宙用例，精心选取了涵盖用户交互、上下文理解与世界锁定三大类别的十项核心任务，并为其配备了代表性的公开模型与标准化数据集。通过定义三种典型的模型组织方式——级联式、并发式及级联并发混合式，XRBENCH构建了包括社交互动、户外活动、AR助手、AR游戏与VR游戏在内的七种具体使用场景。每个场景均设定了动态的模型激活状态与差异化的目标处理速率（如30、60 FPS），并引入了输入流抖动与模型间数据/控制依赖，以精准模拟XR设备在真实环境中的异构、并发与实时计算特性。

使用方法

研究人员可通过XRBENCH的开源框架（https://github.com/XRBench）对目标机器学习系统进行评估。使用前需配置具体的使用场景描述文件，其中定义了活跃模型、目标处理速率及依赖关系。数据集提供的基准测试工具链包含负载生成器、运行时调度器与评分模块，能够模拟多传感器输入流并注入抖动。用户可将待评估的系统（可以是真实硬件、成本模型或模拟器）集成至框架中，由调度器根据依赖关系与实时要求派发推理请求。执行完毕后，评分模块会自动计算并输出详细的XRBENCH SCORE及其各单元分数分解报告。该框架允许用户自定义调度策略与硬件参数，便于开展针对不同系统架构（如异构数据流加速器或多加速器系统）的协同设计与优化研究。

背景与挑战

背景概述

随着扩展现实（XR）技术在元宇宙应用中的兴起，实时多任务多模型（MTMM）机器学习工作负载成为新兴研究焦点。XRBENCH数据集由Meta、哈佛大学、佐治亚理工学院等机构的研究人员于2023年共同创建，旨在解决XR系统中MTMM工作负载的基准测试问题。该数据集通过整合手部跟踪、眼动分割、语音识别等多种任务模型，模拟了社交互动、户外活动、AR游戏等真实使用场景，为评估未来机器学习硬件在XR领域的性能提供了标准化工具。XRBENCH的推出填补了现有基准测试在动态模型级联与并发执行方面的空白，推动了XR系统在异构计算和实时调度方面的研究进展。

当前挑战

XRBENCH数据集面临的挑战主要体现在两个方面：首先，在领域问题层面，XR应用需处理实时MTMM工作负载的异构性与并发性，例如模型间存在复杂的数据依赖与控制依赖，这要求硬件系统具备动态调度能力以保障用户体验质量（QoE）。其次，在构建过程中，数据集需模拟真实工业场景中的动态行为，如模型级联的随机激活与帧率波动，同时设计涵盖实时性、能耗、精度和QoE的综合评估指标。这些挑战使得XRBENCH在平衡模型多样性、场景真实性与评估全面性方面具有较高复杂度。

常用场景

经典使用场景

在扩展现实（XR）与元宇宙领域，XRBENCH数据集作为首个专注于实时多任务多模型（MTMM）机器学习工作负载的基准测试套件，其经典使用场景在于为XR系统硬件与软件栈的性能评估提供标准化、可复现的测试环境。该数据集通过模拟真实工业场景中的用户交互、上下文理解与环境锁定等任务，构建了包含级联、并发及混合执行模式的多样化工作负载，使得研究人员能够系统性地分析异构计算资源在动态、实时约束下的调度效率与系统吞吐量。

解决学术问题

XRBENCH数据集有效解决了XR领域长期存在的学术研究难题，特别是针对实时MTMM工作负载缺乏统一评估标准的问题。它通过定义场景驱动的任务执行图、动态模型依赖关系以及严格的质量体验（QoE）指标，为异构计算架构的设计与优化提供了实证基础。该数据集使得学术界能够深入探究在资源受限的穿戴设备上，如何平衡计算延迟、能耗与模型精度之间的复杂权衡，从而推动新一代机器学习系统在边缘计算环境中的创新。

实际应用

在实际应用层面，XRBENCH数据集被广泛用于评估和优化面向元宇宙的XR设备硬件加速器与运行时系统。例如，在增强现实（AR）眼镜、虚拟现实（VR）头显等穿戴设备的设计中，工程师利用该数据集测试不同数据流架构（如权重固定、输出固定）在多模型并发执行时的能效比与实时性。此外，产业界通过XRBENCH的开放基准，能够对比各类专用集成电路（ASIC）或片上系统（SoC）在复杂交互场景（如社交互动、户外活动导航）下的综合性能，从而指导产品迭代与技术选型。

数据集最近研究