PROSKILL
收藏arXiv2026-01-28 更新2026-01-30 收录
下载链接:
https://fpv-iplab.github.io/ProSkill/
下载链接
链接失效反馈官方服务:
资源简介:
PROSKILL是由卡塔尼亚大学等机构联合创建的首个程序性技能评估基准数据集,旨在支持对人类在结构化任务中专业水平的评估模型开发。数据集包含1135个视频片段,总计14小时视频,覆盖71种多样化动作,数据来源于公开视频数据集如EgoExo4D和Assembly101等。其创新性在于通过瑞士锦标赛机制结合众包标注和ELO评分系统,将成对比较转化为全局一致的绝对技能评分。该数据集主要应用于制造业、装配等程序性活动领域,解决现有技能评估数据规模小、任务单一且缺乏标准化标注协议的问题。
PROSKILL is the first procedural skill assessment benchmark dataset jointly created by the University of Catania and other institutions, aiming to support the development of models for evaluating human professional proficiency in structured tasks. The dataset contains 1,135 video clips totaling 14 hours of video, covering 71 diverse actions, and is sourced from public video datasets such as EgoExo4D and Assembly101. Its core innovation lies in combining crowdsourced annotation and the ELO scoring system via the Swiss tournament mechanism, which transforms pairwise comparisons into globally consistent absolute skill scores. This dataset is primarily applied in procedural activity domains such as manufacturing and assembly, addressing the limitations of existing skill assessment data, including small sample size, single-task focus, and the absence of standardized annotation protocols.
提供机构:
卡塔尼亚大学; Next Vision s.r.l.; 丰田汽车欧洲公司
创建时间:
2026-01-28
原始信息汇总
PROSKILL 数据集概述
数据集简介
- 名称:PROSKILL
- 核心任务:程序性视频中的片段级技能评估
- 主要贡献:首个用于程序性任务中动作级技能评估的基准数据集,提供绝对技能评估标注和成对标注。
数据集构成
- 总规模:包含 1135 个视频片段,涵盖 71 个动作,总时长 14.12 小时,平均片段时长 44.75 ± 48.46 秒。
- 子集详情:
- Ikea ASM:160 个片段,10 个动作,1.28 小时,平均时长 28.88 ± 19.69 秒。
- Meccano:80 个片段,5 个动作,1.06 小时,平均时长 47.59 ± 21.45 秒。
- Assembly101:560 个片段,35 个动作,5.49 小时,平均时长 35.30 ± 25.27 秒。
- EgoExo4D:191 个片段,12 个动作,4.70 小时,平均时长 88.14 ± 90.93 秒。
- EpicTent:144 个片段,9 个动作,1.59 小时,平均时长 39.71 ± 34.18 秒。
标注方法
采用三阶段协议,将成对判断转化为绝对技能分数,并在多轮中保持稳定性。
- 阶段一:成对选择:采用瑞士制锦标赛方案,高效配对视频片段,确保当前排名相近的片段相互比较。
- 阶段二:成对排序:通过亚马逊 Mechanical Turk 众包平台,由合格工作者判断两个表演中哪个技能更高,共收集了 16,372 个独特的比较。
- 阶段三:绝对评分:利用基于 ELO 的评分系统,将成对比较结果聚合成一致、连续的全局分数和最终绝对排名。
- 协议轮次:运行了 R = 6 轮,在 IKEA Assembly 和 EgoExo4D 等子集上实现了稳定的绝对评分和收敛的排名。
基准测试结果
在 Ikea、Meccano、Assembly101、EgoExo4D 和 EpicTent 子集上评估模型。
- 全局模型:通常在排名相关性上优于成对设置模型,其中 CoFInAl 在 Meccano 上达到 ρ = 0.59。
- 成对任务:在 Assembly101 上最具挑战性(准确率约 0.60)。
- 文本条件:使用 MiniLM 进行文本条件化带来了持续但适度的提升。
- 详细性能指标:参见原始内容中的 Spearman’s ρ 表格(全局排名、单动作与统一模型比较、文本条件化结果)。
获取与资源
- 下载内容:数据集、基准测试、文档和代码。
- 可用性:标注、实现标注协议的代码以及实验流程将公开发布。
- 支持方:丰田汽车欧洲公司、Next Vision s.r.l. 以及 Future Artificial Intelligence Research (FAIR) 项目。
引用
bibtex @inproceedings{mazzamuto2025proskill, title={PROSKILL: Segment-Level Skill Assessment in Procedural Videos}, author={Mazzamuto, Michele and Di Mauro, Daniele and Francesca, Gianpiero and Farinella, Giovanni Maria and Furnari, Antonino}, booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)}, year={2026} }
搜集汇总
数据集介绍

构建方式
在程序性视频技能评估领域,现有数据集往往局限于二元标签或成对比较,缺乏大规模、细粒度的绝对技能评分。PROSKILL数据集通过创新的三层标注协议构建,有效解决了这一难题。该协议首先采用瑞士锦标赛机制选择技能水平相近的视频片段进行配对,随后通过亚马逊众包平台收集成对比较标注,最后利用ELO评分系统将相对比较结果聚合为全局一致的绝对技能分数。这一流程经过多轮迭代,确保了评分稳定性,仅需标注约40%的潜在片段对即可获得可靠的技能排名。
使用方法
PROSKILL数据集为程序性视频技能评估模型的开发与评测提供了灵活框架。研究者可采用全局排序方法,如USDL、DAE-AQA或CoFInAl,直接预测片段的连续技能分数,并以斯皮尔曼等级相关系数评估预测排名与真实排名的一致性。对于成对排序任务,可采用RAAN、AQA-TPT或CoRe等模型,基于片段对预测技能高低,并以分类准确率衡量性能。数据集已按视频层级划分为训练、验证与测试集,确保评估无偏。此外,通过结合动作文本描述等上下文信息,可进一步探索多模态条件建模,以提升模型在复杂程序任务中的泛化能力。
背景与挑战
背景概述
PROSKILL数据集由意大利卡塔尼亚大学、Next Vision s.r.l.以及丰田汽车欧洲公司等机构的研究人员于2025年联合创建,旨在解决程序性视频中技能评估的核心研究问题。该数据集聚焦于制造业、装配等结构化任务场景,首次提供了动作级别的绝对技能评分与成对比较标注,填补了现有研究在复杂程序性活动大规模评估数据上的空白。通过整合EgoExo4D、Meccano等多个公开数据集,PROSKILL涵盖了71种动作、1135个视频片段,总时长约14小时,为人类活动理解领域提供了细粒度、多领域的评估基准,推动了自动化技能分析向真实世界应用迈进。
当前挑战
PROSKILL数据集面临的挑战主要体现在两方面:在领域问题层面,程序性视频中的技能评估需克服动作时序结构复杂、环境背景多样以及技能表现主观性强等难题,现有方法在跨任务泛化与连续评分预测上表现欠佳;在构建过程中,设计可扩展的标注协议是一大挑战,研究团队创新性地结合瑞士锦标赛机制与ELO评分系统,通过众包实现高效成对比较,并聚合为全局一致绝对分数,但需确保标注一致性、处理视频长度差异以及平衡不同数据源间的质量与多样性。
常用场景
经典使用场景
在程序性视频技能评估领域,PROSKILL数据集为研究者提供了细粒度的动作级别技能标注,其经典使用场景在于训练和评估模型以自动化评估人类在结构化任务中的表现。该数据集通过结合瑞士锦标赛机制和ELO评分系统,生成了全局一致的绝对技能排名,使得模型能够在制造、装配等实际场景中,对执行者的技能水平进行连续且可靠的量化分析。研究人员可利用该数据集开发回归、排序或分类模型,以预测视频片段的技能得分或比较不同执行者的相对优劣,从而推动程序性活动理解的前沿进展。
解决学术问题
PROSKILL数据集有效解决了程序性视频技能评估中标注规模有限、任务多样性不足以及标注协议可扩展性差等学术问题。传统数据集多集中于体育领域,且通常采用二元标签或成对比较,缺乏全局可解释的绝对分数。PROSKILL通过创新的众包标注协议,将成对比较聚合为连续的绝对评分,填补了细粒度技能评估的空白。该数据集支持多种评估范式,包括排序、回归和分类,为复杂真实世界任务中的技能建模提供了统一基准,促进了跨领域技能评估方法的泛化与比较。
实际应用
在实际应用层面,PROSKILL数据集能够支持制造业、装配线和日常程序性任务的自动化技能评估系统。例如,在工业培训中,系统可基于视频分析自动识别员工操作中的技能缺陷,提供实时反馈以优化工作流程、提升效率与安全性。该数据集涵盖自行车维修、家具组装、帐篷搭建等多种任务,其多样化的场景确保了模型在真实环境中的鲁棒性。此外,结合可穿戴设备或监控摄像头,此类系统可实现持续的性能监测,早期发现错误或次优行为,从而降低培训成本并提高整体操作质量。
数据集最近研究
最新研究方向
在程序性视频技能评估领域,PROSKILL数据集的推出标志着研究重心从传统体育场景转向复杂工业与日常任务。该数据集通过创新的瑞士锦标赛标注协议与ELO评分系统,首次实现了片段级绝对技能评分与成对比较的统一,为多范式评估模型提供了基准。当前前沿研究聚焦于开发能够适应跨领域、多动作的全局排序模型,并探索结合文本嵌入的动作语义先验以提升预测一致性。尽管现有方法在成对排序任务上表现尚可,但在全局回归任务中仍面临显著挑战,凸显了程序性视频中技能评估的复杂性与未解决性,推动了面向真实场景的鲁棒性算法设计与可解释性评估框架的发展。
相关研究论文
- 1ProSkill: Segment-Level Skill Assessment in Procedural Videos卡塔尼亚大学; Next Vision s.r.l.; 丰田汽车欧洲公司 · 2026年
以上内容由遇见数据集搜集并总结生成



