qihoo360/WISA-80K
收藏Hugging Face2025-08-01 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/qihoo360/WISA-80K
下载链接
链接失效反馈官方服务:
资源简介:
WISA-80K是一个物理感知文本到视频生成的数据集,包含超过8万对文本到视频的数据。该数据集旨在帮助研究人员和开发者训练能够根据文本描述生成相应物理现象视频的模型。
WISA-80K is a physics-aware text-to-video generation dataset containing over 80,000 text-to-video pairs. It is designed to assist researchers and developers in training models capable of generating videos that correspond to physical phenomena based on text descriptions.
提供机构:
qihoo360
搜集汇总
数据集介绍

构建方式
WISA-80K数据集由360CVGroup团队构建,旨在为物理感知文本到视频生成任务提供高质量训练资源。该数据集从公开视频素材中精心筛选80,000个视频片段,每个片段均配有详细的文本描述,涵盖物体运动、物理交互及场景动态等关键信息。构建过程采用自动化工具与人工校验相结合的方式,先通过预训练模型生成初始标注,再由领域专家进行精修,确保文本与视频内容在物理规律上高度一致。最终数据以JSON格式组织,便于高效加载与处理。
特点
WISA-80K数据集的核心特点在于其物理感知的标注深度。每个视频片段的文本描述不仅包含视觉内容,还显式编码了重力、碰撞、弹性等物理属性,使模型能理解并模拟真实世界动态。数据集规模适中(80,000个样本),覆盖多样化场景,如刚体运动、流体行为及生物交互,避免了冗余与偏差。此外,数据经过严格质量控制,标注一致性高,为训练物理感知视频生成模型提供了可靠基准。
使用方法
使用WISA-80K数据集时,用户需从HuggingFace下载JSON标注文件及对应视频数据。数据集专为文本到视频生成任务设计,可直接用于训练或微调物理感知模型,如WISA框架中的视频扩散模型。用户应依据标注文件中的文本-视频对进行监督学习,同时可利用其物理标注进行条件生成或物理规律约束。建议配合官方代码库(GitHub: 360CVGroup/WISA)使用,以复现论文实验或开发新方法。
背景与挑战
背景概述
在文本到视频生成领域,物理规律的真实模拟一直是制约生成内容自然度与实用性的核心瓶颈。现有模型虽能生成视觉上连贯的视频,却往往忽视物体运动中的重力、碰撞与形变等物理法则,导致生成的动态场景违背常识。为应对这一挑战,360人工智能研究院与中山大学等机构的研究人员于2025年联合推出了WISA-80K数据集,旨在为物理感知的文本到视频生成提供高质量训练资源。该数据集由Jing Wang、Ao Ma、Ke Cao等人主导构建,包含约8万条精心标注的文本-视频对,覆盖多种物理交互场景。其核心研究问题在于如何利用大规模数据驱动的方式,让生成模型学会隐式地理解并模拟物理世界的运行规则。自发布以来,WISA-80K已成为物理感知视频生成领域的重要基准,推动了文本到视频技术从视觉真实向物理真实的跨越。
当前挑战
WISA-80K数据集面临的核心挑战源于物理规律在视频生成中的复杂性与多样性。首先,在领域问题层面,现有文本到视频模型普遍缺乏对重力、动量守恒及物体间相互作用等基本物理的显式建模能力,生成内容常出现悬浮、穿透或反直觉运动,亟需数据集能够提供蕴含丰富物理动态的标注样本,以引导模型学习隐式物理表征。其次,在数据集构建过程中,如何高效采集并标注大量具有明确物理交互的文本-视频对是另一大难题。物理场景的拍摄需要精心设计的实验环境与动作规范,而人工标注需同时确保文本描述与视频中物体运动、受力状态的高度一致性,这对标注人员专业素养与数据质量控制提出了极高要求。此外,视频中物理现象的连续性与时序依赖性,使得传统基于单帧或短片段的数据标注策略难以适用,必须开发新的标注范式和评估指标来确保数据集的物理有效性。
常用场景
经典使用场景
WISA-80K数据集专为物理感知文本到视频生成任务而设计,其核心应用场景在于驱动视频生成模型理解并模拟真实世界的物理规律。该数据集包含约8万条高质量的视频-文本对,每条样本均经过精细标注,涵盖物体运动轨迹、碰撞响应、重力效应等物理属性。研究者可利用该数据集训练模型,从文本描述中生成符合牛顿力学、流体动力学等物理准则的动态场景,例如“一个篮球从高处落下并弹起”或“水流绕过石头形成涡旋”。这一场景填补了现有视频生成数据集在物理一致性方面的空白,为构建具备世界模拟能力的生成式AI提供了关键数据支撑。
实际应用
在实际应用中,WISA-80K赋能了多个高价值产业场景。在影视特效与游戏开发领域,它支持从剧本文本直接生成符合物理规律的预可视化片段,大幅降低手工动画制作成本。在机器人仿真训练中,该数据集帮助模型理解物体间的物理交互,从而生成更真实的虚拟训练环境,提升策略迁移效率。此外,在自动驾驶和智能监控领域,利用WISA-80K训练的模型可生成包含物理约束的极端场景视频(如车辆侧滑、物体坠落),用于算法鲁棒性测试。这些应用显著加速了从创意构思到工业部署的转化流程。
衍生相关工作
WISA-80K的发布催生了一系列突破性研究工作。基于该数据集,研究者提出了物理引导的扩散模型架构,通过引入物理先验损失函数实现了生成视频的动量守恒约束。另有多项工作探索了物理知识蒸馏范式,利用WISA-80K的标注训练轻量级物理检测器,将其嵌入现有视频生成管线实现无监督物理增强。此外,该数据集还推动了物理感知评估基准的建立,衍生出如PhysBench等专门量化生成视频物理合理性的评测体系。这些工作共同形成了以物理真实性为核心的视频生成研究新范式。
以上内容由遇见数据集搜集并总结生成



