VideoNet

Name: VideoNet
Creator: 华盛顿大学; 艾伦人工智能研究所; 斯坦福大学
Published: 2026-05-05 01:11:16
License: 暂无描述

arXiv2026-05-05 更新2026-05-06 收录

下载链接：

https://tanu.sh/videonet

下载链接

链接失效反馈

官方服务：

资源简介：

VideoNet是由华盛顿大学和艾伦人工智能研究所联合构建的大规模领域特定动作识别数据集，涵盖37个领域的1000种精细动作。该数据集包含近50万条视频问答对，视频平均时长12.2秒，数据来源于网络公开视频并经过专业标注流程验证。通过三阶段人工标注流程（视频收集、片段验证和精细修剪）确保数据质量，专家验证显示标签准确率达97%。该数据集旨在推动视觉语言模型在专业领域动作理解方面的研究，可应用于运动分析、医疗动作识别等需要细粒度动作理解的场景。

VideoNet is a large-scale domain-specific action recognition dataset jointly developed by the University of Washington and the Allen Institute for Artificial Intelligence, covering 1000 fine-grained action categories across 37 domains. This dataset contains nearly 500,000 video-question-answer pairs, with an average video duration of 12.2 seconds. The data is sourced from publicly available online videos and validated via a professional annotation workflow. A three-stage manual annotation pipeline consisting of video collection, clip verification and fine-grained trimming is adopted to ensure data quality, and expert validation shows that the label accuracy reaches 97%. This dataset aims to promote research on vision-language models for domain-specific action understanding, and can be applied to scenarios requiring fine-grained action understanding such as motion analysis and medical action recognition.

提供机构：

华盛顿大学; 艾伦人工智能研究所; 斯坦福大学

创建时间：

2026-05-05

原始信息汇总

根据您提供的数据集详情页面内容，以下是数据集的关键信息概述：

数据集名称：VideoNet
核心内容：包含 1,000 种动作，覆盖 37 个领域。
任务/目标：面向特定领域（Domain-Specific）的动作识别，研究背景为视觉语言模型（VLM）时代。
相关资源：提供数据（🤗 Data）、演示（Demo）和代码（Code）。
会议发表：CVPR 2026 Highlight（亮点论文）。
作者单位：University of Washington、Allen Institute for AI、Stanford University。
致谢：本项目部分由苹果公司（Apple）资助。

搜集汇总

数据集介绍

构建方式

VideoNet数据集的构建采用自上而下的分类学方法，首先制定涵盖日常生活、专业知识和快速运动等领域的类别清单，并在每个类别中筛选出拥有充足视频资源与权威专家内容的领域。随后，从专家撰写的资料中汇编各领域的动作列表，并借助大语言模型进行扩充与去重。为确保动作定义的准确性，大语言模型能够进行针对性网络搜索，以纠正潜在的错误或过时的领域知识。在数据收集阶段，通过一个三阶段的人工标注流水线，依次完成视频搜集、剪辑验证与修剪优化，最终为每个动作生成至少五个精准裁剪的视频片段，确保了数据的高质量与高精度。

特点

VideoNet数据集的核心特点在于其覆盖了37个领域中的1000种细粒度、领域特异性动作，远超以往仅聚焦于单一或少数领域的数据集。该数据集通过精心设计的“硬负样本”策略，选取视觉或运动细节上高度相似的动作作为干扰选项，从而有效评估模型对细微差别的感知与推理能力。此外，数据集中包含大量来自网络的不同视频源，确保了视觉构成的多样性与泛化性。专家验证结果表明，数据集标签准确率高达97%，验证了其构建流程的可靠性与有效性。评测设置包含多项选择与二元少样本两种模式，全面考察模型的领域特异性动作识别与上下文学习能力。

使用方法

提供的数据集用途广泛，尤其适用于视觉语言模型在领域特异性动作识别上的评估与改进。用户可通过多项选择模式测试模型在四个相近动作中识别正确动作的能力，亦可利用二元少样本模式探究模型从少量视频示例中学习与泛化的潜力。此外，研究团队已基于该数据集构建了一个包含约16万剪辑的大规模训练集，并成功微调了4B参数量的Molmo2模型，使其在VideoNet基准上超越了所有开源的8B模型。这表明该数据集不仅可作为评测基准，还能直接用于微调模型以显著提升其领域特异性动作理解能力。

背景与挑战

背景概述

VideoNet数据集诞生于2026年，由华盛顿大学、艾伦人工智能研究所与斯坦福大学的研究人员联合创建。其核心研究问题在于，尽管视觉-语言模型（VLM）在诸多视频理解任务上取得了显著进展，但领域特定动作识别这一经典任务却因缺乏多样且具有挑战性的数据而被长期忽视。VideoNet填补了这一空白，提供了一个覆盖37个领域、包含1000种精细动作的大规模基准。该数据集的发布重新点燃了VLM时代对领域特定动作识别能力的评估热潮，并深刻揭示了当前模型在细粒度运动感知与组合推理上的严重不足，对推动视频理解领域向更具现实应用价值的方向发展具有里程碑式的影响力。

当前挑战

VideoNet所解决的领域问题在于现有VLM在领域特定动作识别上能力匮乏，模型在多项选择设置中表现挣扎，最佳开源8B模型仅达45.0%的准确率，而闭源模型最高也仅69.9%。这一鸿沟凸显了模型对细微运动线索的捕捉与理解存在本质缺陷。在构建过程中，数据集面临的核心挑战有三：其一，领域特定动作数据本身难以大规模收集，传统方法依赖昂贵且稀缺的领域专家；其二，需要确保负样本的“硬度”以阻止模型利用场景细节等捷径，为此研究团队设计了一套由LLM生成经推理模型迭代筛选的硬负样本流程；其三，如何保证非专家标注者能够准确识别动作，研究者巧妙地将k-way分类问题转化为2-way异常检测问题，并辅以动作定义与专家验证，最终实现了高达97%的标签正确率。

常用场景

经典使用场景

VideoNet作为一个面向领域特定动作识别的大型数据集，其经典使用场景在于评估和提升视觉语言模型（VLM）对细粒度、领域专属动作的理解能力。该数据集涵盖了来自37个不同领域的1000种精细动作，囊括了从体育竞技到医学检查的广泛范畴。研究者通常采用多项选择与二分类两种评估范式，要求模型从多个高度相似的候选动作中准确识别视频所呈现的特定动作，从而系统性地检验模型在复杂视觉场景下的动作感知与推理能力。这一评估框架旨在揭示当前VLM在捕捉细微运动差异与领域知识关联方面的真实水平。

解决学术问题

VideoNet有效解决了学术研究中长期存在的领域特定动作数据匮乏与评估标准缺失的问题。传统动作识别研究多聚焦于粗粒度动作类别，而忽视了如花样滑冰中“三周跳”与“四周跳”这类依赖精细运动细节与组合推理的领域特定动作。现有VLM在这一任务上表现欠佳，最优开源8B模型在多项选择设定中准确率仅为45.0%，而闭源模型也仅达到69.9%。通过构建涵盖丰富领域知识与复杂负样本的基准，VideoNet为社区提供了检验模型在感知、推理及真实世界动作理解能力方面的可靠试金石，推动了该被遗忘任务的复兴。

衍生相关工作

VideoNet的发布催生了一系列重要的衍生研究工作。其核心贡献之一是构建了包含近160,000个视频片段的大规模训练数据，证明了在领域特定动作数据上进行微调能够显著提升模型性能——仅4B参数的Molmo2模型经微调后在多项选择设定中达到53.5%的准确率，超越了所有8B开源模型。此外，基准中引入的少样本评估范式揭示了VLM在视频上下文学习方面的显著不足，非专业人类在提供三个示例后准确率提升13.6个百分点，而模型平均仅提升2.9个百分点。这一发现激发了对视频上下文学习机制及领域特定训练数据质量优化策略的深入研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集