EXACT

Name: EXACT
Creator: 北卡罗来纳大学教堂山分校
Published: 2025-06-07 01:58:51
License: 暂无描述

arXiv2025-06-07 更新2025-06-10 收录

下载链接：

https://texaser.github.io/exact_project_page/

下载链接

链接失效反馈

官方服务：

资源简介：

EXACT是一个视频-语言基准数据集，旨在评估对熟练的物理人类活动的专家级理解。数据集包含3521个专家策划的视频问答对，涵盖6个领域（体育、自行车维修、烹饪、健康、音乐和舞蹈）的11种活动。EXACT要求从五个精心设计的候选选项中选择正确答案，这需要对物理人类技能的细微差别进行深入的专家级理解。

EXACT is a video-language benchmark dataset designed to evaluate expert-level understanding of skilled physical human activities. The dataset contains 3,521 expert-curated video question-answer pairs, covering 11 types of activities across 6 domains: sports, bicycle repair, cooking, health, music, and dance. EXACT requires selecting the correct answer from five meticulously designed candidate options, which demands in-depth expert-level comprehension of the nuances of physical human skills.

提供机构：

北卡罗来纳大学教堂山分校

创建时间：

2025-06-07

原始信息汇总

ExAct: 视频语言专家动作分析基准数据集概述

基本信息

数据集名称: ExAct (Expert Action Analysis)
开发者: Han Yi, Yulu Pan, Feihong He, Xinyu Liu, Benjamin Zhang, Oluwatumininu Oguntola, Gedas Bertasius (UNC Chapel Hill)
数据规模: 3521个专家标注的视频问答对
覆盖领域: 6大物理领域下的11种专业技能活动
- 体育（篮球、足球、抱石）
- 自行车维修
- 烹饪
- 健康（COVID-19安全措施、心肺复苏）
- 音乐（吉他、钢琴、小提琴）
- 舞蹈

核心特点

专家级标注: 所有问答对由领域专家标注
多选题评估: 每个问题包含5个候选答案（1个正确答案+4个干扰项）
细粒度理解: 要求模型具备对人类专业动作的精确理解能力

性能基准

排名	模型	帧数	总体准确率(%)	各领域准确率(%)
1	随机选择	-	20.00	各领域均为20.00
2	人类非专家	-	61.86	62.97-71.43
3	人类专家	-	82.02	80.21-87.09
4	Gemini 1.5 Pro	32	43.91	39.86-52.10
5	GPT-4o	32	44.70	33.89-53.30

数据统计

视频时长分布: 多数片段集中在0-10秒区间
标注类型分布:
- 良好执行(Good Execution)
- 改进建议(Tips for Improvement)

构建流程

原始评论预处理: 使用GPT-4o校正和分段专家评论
多选题生成: 1个正确答案+4个LLM生成的干扰项
质量过滤: 基于长度启发式和盲测LLM的筛选
专家审核: 确保视觉基础和语言准确性

研究意义

揭示了当前视频语言模型与人类专家之间的显著性能差距（最佳模型44.70% vs 专家82.02%）
为专业技能理解领域的模型开发提供评估基准

搜集汇总

数据集介绍

构建方式

EXACT数据集通过四阶段流程构建而成。首先，利用GPT-4o对原始专家评论进行预处理，修正错误并分割为简洁的自包含反馈评论。其次，构建多项选择题对，每个问题包含一个正确评论和四个干扰项。随后，通过长度过滤和盲测LLMs去除低质量或有偏见的样本。最后，领域专家审查每个问题对，确保视觉基础和语言准确性。

特点

EXACT数据集包含3,521个专家策划的视频问答对，涵盖6个领域的11种物理活动。其独特之处在于结合了专家级别的自由形式语言注释和多项选择题评估格式，要求对物理人类技能进行细致、专家级的理解。数据集中的干扰项经过精心设计，需要细微的区分能力，突显了其在评估现代视频语言模型方面的价值。

使用方法

EXACT数据集主要用于评估视频语言模型在专家级别理解人类技能方面的能力。使用时，模型需要观看视频片段，并从五个候选答案中选择最匹配的专家评论。评估采用标准的问答准确率作为主要指标，涵盖多个领域的细粒度物理技能活动。该数据集还可用于开发能够提供详细、可操作反馈的虚拟AI助手或教练系统。

背景与挑战

背景概述

EXACT（Expert Action Analysis）是由北卡罗来纳大学教堂山分校的研究团队于2025年提出的视频-语言基准测试，旨在评估模型对专业级人类动作的理解能力。该数据集包含3,521个专家标注的视频问答对，涵盖体育、自行车维修、烹饪、健康、音乐和舞蹈等6个领域的11项技能活动。EXACT通过多选问答形式，要求模型从五个精心设计的候选答案中选出最匹配视频内容的专业评论，从而推动模型在细粒度动作分析和专业反馈生成方面的研究。该数据集的构建基于Ego-Exo4D数据集中的专家评论，通过结构化处理和严格筛选，显著提升了数据质量，为AI辅助技能学习提供了重要基准。

当前挑战

EXACT面临的挑战主要体现在两个方面：领域问题层面，现有视觉语言模型（VLMs）在专业级动作理解上表现欠佳，最佳模型GPT-4o的准确率仅为44.7%，远低于人类专家的82.02%，突显模型在捕捉动作细节和技术要领上的不足；构建过程层面，原始专家评论存在自动语音识别错误、冗余内容和结构松散等问题，需通过多阶段处理流程（包括评论重构、干扰项生成和专家验证）来确保数据质量，同时需避免模型通过语言模式而非视频内容进行预测的偏差。此外，评估专业反馈的正确性也缺乏现成的语言度量标准，需设计新的评估框架。

常用场景

经典使用场景

EXACT数据集在视频语言理解领域被广泛用于评估模型对专业级人类动作的细粒度理解能力。通过多选问答任务，该数据集能够测试模型在篮球、自行车维修、音乐等11种专业活动中的表现，要求模型从五个精心设计的候选答案中选出最匹配视频内容的专家评论。

衍生相关工作

EXACT数据集衍生了一系列相关研究，包括基于Ego-Exo4D数据集的专家评论结构化处理、多模态视频语言模型的性能评估，以及针对专业技能理解的模型优化方法。这些工作进一步推动了视频语言模型在专业领域的应用和发展。

数据集最近研究