five

WorldLens-26K

收藏
arXiv2025-12-12 更新2025-12-13 收录
下载链接:
https://huggingface.co/datasets/worldbench
下载链接
链接失效反馈
官方服务:
资源简介:
WorldLens-26K是由WorldBench团队构建的大规模标注数据集,旨在全面评估生成式世界模型的综合性能。该数据集包含26,000条人类标注的视频样本,每条样本均附有定量评分和文本解释,涵盖视觉真实性、几何一致性、物理合理性和行为安全性等多维指标。数据通过专业标注流程收集,结合了算法生成视频与人工理性标注,为世界模型的真实性评估提供了标准化基准。其核心应用领域为自动驾驶和具身智能,通过量化生成世界的物理与行为可靠性,推动仿真环境从‘视觉逼真’向‘行为合理’的范式升级。

WorldLens-26K is a large-scale annotated dataset constructed by the WorldBench team, aiming to comprehensively evaluate the overall performance of generative world models. This dataset includes 26,000 human-annotated video samples, each paired with quantitative scores and textual explanations, covering multiple evaluation metrics such as visual authenticity, geometric consistency, physical plausibility, and behavioral safety. The dataset is collected through a professional annotation pipeline, integrating algorithm-generated videos and human expert annotations, thereby providing a standardized benchmark for the authenticity evaluation of generative world models. Its core application scenarios are autonomous driving and embodied intelligence. By quantifying the physical and behavioral reliability of the generated world, it promotes the paradigm shift of simulation environments from "visually realistic" to "behaviorally plausible".
提供机构:
WorldBench团队
创建时间:
2025-12-12
搜集汇总
数据集介绍
main_image_url
构建方式
在自动驾驶领域,生成式世界模型正逐步重塑具身智能的评估范式。WorldLens-26K数据集的构建旨在弥合算法指标与人类感知之间的鸿沟,为此研究团队设计了一套严谨的多阶段人工标注流程。十名标注者被分为两组,各自独立对生成的驾驶视频在四个维度上进行评分,当评分出现分歧时样本会进行重新评估以确保一致性。标注过程中,标注者通过一个结构化界面同时观察生成的视频、语义掩码、深度图以及三维边界框,并依据详细文档中的示例对每个评分等级进行判断。整个标注过程耗时超过930小时,最终形成了包含26,808条评分记录的大规模数据集,每条记录均包含离散分数和由标注者撰写的简明文本理由,从而将主观评价转化为可学习的监督信号。
使用方法
WorldLens-26K数据集为生成式世界模型的评估与优化提供了关键资源。其主要用途体现在两个方面:一是作为基准测试的黄金标准,用于验证和比较不同驾驶世界模型在人类感知对齐方面的性能;二是作为监督学习的训练数据,用以蒸馏人类偏好。研究团队基于该数据集开发了WorldLens-Agent,这是一个通过监督微调从人类反馈中学习的视觉-语言批评智能体。该智能体能够预测感知和物理分数,并生成与人类推理一致的自然语言解释,从而实现对生成世界的大规模、可扩展的自动评估,无需重复进行人工标注。此外,该数据集还可用于构建人类对齐的奖励或优势函数,以支持生成式世界模型的强化学习微调。
背景与挑战
背景概述
生成式世界模型正在重塑具身智能领域,使得智能体能够合成视觉逼真的四维驾驶环境,但这些生成场景往往在物理规律或行为逻辑上存在缺陷。WorldLens-26K数据集由WorldBench团队于2025年提出,旨在填补该领域缺乏统一评估标准的空白。该数据集构建了一个全谱系基准,从生成质量、重建能力、动作跟随、下游任务性能及人类偏好五个维度,系统评估世界模型在几何一致性、物理合理性与功能可靠性等方面的表现。通过引入大规模人工标注视频与评分依据,WorldLens-26K为驱动生成式世界模型向物理可信与行为合理的方向演进提供了关键的数据基础与评估框架。
当前挑战
WorldLens-26K致力于解决生成式驾驶世界模型的综合评估难题,其核心挑战在于如何统一量化模型在视觉真实感、几何一致性、物理合理性与行为安全性等多维度的表现。现有模型往往在单一维度表现突出却难以兼顾全局,例如纹理逼真的模型常违反物理规律,而几何稳定的模型则缺乏行为保真度。数据构建过程中,需克服多维度标注的一致性难题,确保人类评分与算法度量之间的对齐,同时设计可扩展的自动评估智能体以降低对重复人工标注的依赖。这些挑战共同指向了推动生成式世界模型从‘视觉逼真’迈向‘行为合理’的关键瓶颈。
常用场景
经典使用场景
在自动驾驶与具身智能领域,生成式世界模型正逐步重塑仿真环境的构建范式,WorldLens-26K数据集作为WorldLens基准的核心组成部分,其经典使用场景在于为生成式驾驶世界模型提供全面、多维度的人类偏好评估数据。该数据集通过大规模人工标注,对模型生成的驾驶场景视频在视觉真实性、几何一致性、物理合理性与行为安全性等方面进行量化评分与文本解释,从而构建起连接算法指标与人类感知的桥梁。研究者可借助该数据集训练自动评估代理(如WorldLens-Agent),实现对生成视频的规模化、可解释的评分,推动世界模型从“看起来真实”向“行为真实”的演进。
解决学术问题
WorldLens-26K数据集针对生成式世界模型评估中存在的碎片化与片面性问题,系统性地解决了多维度统一评估的学术挑战。传统评估指标往往侧重于视觉保真度,忽视了物理规律、几何连贯性以及行为功能性,导致模型在视觉上逼真却在实际应用中失效。该数据集通过涵盖生成、重建、动作跟随、下游任务与人类偏好五大方面,共计24个细粒度维度,首次建立了从低层外观到高层行为的全频谱评估框架。其意义在于为领域提供了首个兼顾感知、几何、功能与人类对齐的统一评测协议,推动了世界模型评估从单一视觉度量向物理可靠性与行为可信度的综合转变,为后续研究奠定了标准化基础。
实际应用
WorldLens-26K数据集的实际应用场景紧密围绕自动驾驶仿真与安全测试展开。在工业界,该数据集可用于训练高效的自动评估系统,对合成驾驶场景进行大规模质量筛查,加速仿真数据的生成与验证流程。例如,汽车制造商与科技公司可利用其评估生成的世界模型是否能为规划与控制算法提供可靠的环境输入,从而降低实车测试成本与风险。此外,该数据集支持下游感知模型的性能评估,帮助判断合成数据在目标检测、语义分割等任务上的可用性,为数据驱动的自动驾驶系统开发提供关键的质量保障。其构建的人类偏好对齐机制,也为开发更符合人类直觉与安全规范的仿真环境提供了直接监督信号。
数据集最近研究
最新研究方向
在自动驾驶仿真领域,生成式世界模型正从视觉逼真度向物理与行为一致性演进。WorldLens-26K数据集通过全谱评估框架,系统性地揭示了当前模型在几何一致性、物理合理性与功能可靠性之间的显著权衡。前沿研究聚焦于构建能够同时优化外观生成、4D重建、动作跟随及下游任务性能的统一世界模型,并借助大规模人类标注数据(WorldLens-26K)与蒸馏评估智能体(WorldLens-Agent),推动生成内容与人类感知的对齐。这一方向不仅促进了仿真数据的标准化评估,也为具身智能在复杂动态环境中的可靠决策提供了关键基准。
相关研究论文
  • 1
    WorldLens: Full-Spectrum Evaluations of Driving World Models in Real WorldWorldBench团队 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作