five

EWMBench

收藏
github2025-05-16 更新2025-05-18 收录
下载链接:
https://github.com/AgibotTech/EWMBench
下载链接
链接失效反馈
官方服务:
资源简介:
Embodied World Model Benchmark (EWMBM) 是一个专门设计用于评估Embodied World Models (EWMs)的基准框架,旨在评估文本驱动视频生成模型在具体任务中的表现。EWMBM系统评估生成内容在三个关键维度上的物理合理性和任务一致性:视觉场景一致性、运动正确性和语义对齐。与传统感知指标相比,EWMBM更关注生成结果在具体环境中的实际可用性和合理性。

The Embodied World Model Benchmark (EWMBM) is a specialized framework designed for evaluating Embodied World Models (EWMs), aiming to assess the performance of text-driven video generation models across specific tasks. The EWMBM system evaluates the physical plausibility and task consistency of generated content across three critical dimensions: visual scene consistency, motion correctness, and semantic alignment. Compared to traditional perception metrics, EWMBM places a greater emphasis on the practical utility and rationality of generated results within specific environments.
创建时间:
2025-05-14
原始信息汇总

EWMBench数据集概述

数据集简介

  • 名称:EWMBench (Embodied World Model Benchmark)
  • 目的:评估具身世界模型(EWMs)在文本驱动视频生成任务中的表现
  • 核心评估维度
    • 视觉场景一致性
    • 运动正确性
    • 语义对齐
  • 特点
    • 关注生成内容在具身环境中的物理合理性和任务连贯性
    • 提供多维评估工具包和高质量多样化数据集

数据集结构

真实数据(gt_dataset)

gt_dataset/ ├── task_{n}/ │ ├── episode_{n}/ │ │ ├── prompt/ │ │ │ ├── init_frame.png │ │ │ └── introduction.txt │ │ └── video/ │ │ ├── frame_00000.jpg │ │ ├── ... │ │ └── frame_0000n.jpg

生成样本({xxx}_dataset)

{xxx}dataset/ ├── task{n}/ │ ├── episode_{n}/ │ │ ├── {n}/ │ │ │ └── video/ │ │ │ ├── frame_00000.jpg │ │ │ ├── ... │ │ │ └── frame_0000n.jpg

获取方式

  • 下载地址:https://huggingface.co/datasets/agibot-world/EWMBench
  • 预训练权重
    • Qwen2.5模型:https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct
    • CLIP模型:
      • https://huggingface.co/openai/clip-vit-base-patch16
      • https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt
    • 微调模型:https://huggingface.co/agibot-world/EWMBench-model

评估方法

  • 可用评估维度

    • diversity
    • scene_consistency
    • trajectory_consistency
    • semantics
  • 评估命令

    python evaluate.py --dimension semantics trajectory_consistency --config ./config.yaml

引用信息

bib @article{hu2025ewmbench, title={EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models}, author={Hu, Yue and Huang, Siyuan and Liao, Yue and Chen, Shengcong and Zhou, Pengfei and Chen, Liliang and Yao, Maoqing and Ren, Guanghui}, journal={arXiv preprint arXiv:2505.09694}, year={2025} }

许可协议

  • 许可证类型:CC BY-NC-SA 4.0
  • 许可证链接:https://creativecommons.org/licenses/by-nc-sa/4.0/
搜集汇总
数据集介绍
main_image_url
构建方式
EWMBench数据集的构建立足于具身智能领域的前沿需求,采用多模态数据融合策略精心设计而成。其核心构建流程基于真实物理环境模拟,通过三维场景重建与动作捕捉技术生成基础数据,并辅以文本描述标注形成多维度标注体系。数据集构建过程中特别注重任务场景的多样性,涵盖了家居操作、物体交互等典型具身任务场景,每个场景均包含初始帧图像、视频序列及运动轨迹数据,并通过严格的专家校验确保数据质量。
使用方法
使用EWMBench需遵循标准化的数据处理流程。首先需从Hugging Face平台下载数据集并按指定目录结构组织,通过提供的预处理脚本完成数据格式转换和特征提取。评估阶段可通过修改配置文件灵活选择评估维度,支持场景一致性、轨迹连贯性和语义对齐等指标的独立或组合测试。评估工具链整合了CLIP、DINOv2等先进视觉模型,用户只需通过简单命令行接口即可获取详细的评估结果,输出格式为标准CSV文件便于后续分析。
背景与挑战
背景概述
EWMBench数据集由AgibotTech团队于2025年推出,旨在评估具身世界模型(Embodied World Models, EWMs)在文本驱动视频生成任务中的表现。该数据集聚焦于具身智能领域,通过系统化评估生成内容在视觉场景一致性、运动正确性和语义对齐三个维度的表现,弥补了传统感知度量在具身环境实用性方面的不足。其核心研究问题在于如何量化生成内容的物理合理性和任务连贯性,为下一代具身智能模型的研发提供基准工具和高质量数据支持。
当前挑战
EWMBench面临的挑战主要体现在两个方面:领域问题方面,现有评估方法难以准确捕捉具身环境中动态交互的复杂性,特别是在多模态融合和长时序推理方面存在显著差距;数据构建方面,需要平衡场景多样性与物理约束的真实性,同时确保语义标注的细粒度与运动轨迹的精确同步,这对跨模态数据采集和标注提出了极高要求。
常用场景
经典使用场景
在具身智能研究领域,EWMBench数据集被广泛应用于评估文本驱动视频生成模型在具身任务中的表现。该数据集通过系统化的评估框架,专注于生成内容在视觉场景一致性、运动正确性和语义对齐三个关键维度的物理合理性和任务连贯性。研究人员利用该数据集对模型生成的视频序列进行多维度分析,从而验证模型在模拟真实世界物理规律和任务执行逻辑方面的能力。
解决学术问题
EWMBench数据集有效解决了具身世界模型评估中缺乏标准化基准的学术难题。传统感知指标往往忽视生成内容在具身环境中的实际可用性,而该数据集通过引入物理合理性和任务连贯性等评估维度,为研究者提供了更全面的模型性能分析工具。其高质量、多样化的数据资源为探索当前方法的局限性提供了重要依据,推动了下一代具身智能模型的发展。
实际应用
在实际应用场景中,EWMBench数据集为机器人仿真训练、虚拟现实环境构建等提供了重要支持。工业界可利用该数据集评估机器人动作规划算法的有效性,确保生成的视频序列符合真实物理规律。教育领域则借助该数据集开发更逼真的虚拟实验环境,提升学习者的沉浸式体验。这些应用充分体现了数据集在连接理论研究与实际工程之间的桥梁作用。
数据集最近研究
最新研究方向
在具身智能领域,EWMBench数据集的推出为评估文本驱动视频生成模型在具身任务中的表现提供了系统化框架。该数据集聚焦于视觉场景一致性、运动正确性和语义对齐三个核心维度,突破了传统感知指标的局限,更强调生成内容在具身环境中的物理合理性和任务连贯性。随着多模态大模型和生成式AI技术的快速发展,EWMBench为研究社区提供了关键基准工具,推动具身世界模型在机器人操作、虚拟现实等应用场景中的实用化进程。其多维评估体系和高质量数据资源,正在助力解决当前方法在动态场景理解和物理交互建模方面的瓶颈问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作