VideoAVE
收藏arXiv2025-08-16 更新2025-08-22 收录
下载链接:
https://github.com/gjiaying/VideoAVE
下载链接
链接失效反馈官方服务:
资源简介:
VideoAVE是一个多属性视频到文本属性值提取数据集,是第一个公开可用的视频到文本电子商务AVE数据集,涵盖了14个不同的领域和172个独特的属性。为了保证数据质量,我们提出了一种后处理CLIP-MoE过滤系统来移除不匹配的视频-产品对,从而得到一个经过精炼的数据集。我们还在VideoAVE上建立了一个全面的基准,以评估几个最先进的视频视觉语言模型在属性条件值预测和开放属性值对提取任务中的表现。结果表明,视频到文本的AVE仍然是一个具有挑战性的问题,特别是在开放场景中,仍有开发更先进的VLMs的空间。
提供机构:
弗吉尼亚理工大学
创建时间:
2025-08-16
搜集汇总
数据集介绍

构建方式
在电子商务领域,产品属性值提取任务长期受限于文本或静态图像模态的约束。VideoAVE数据集通过系统化流程构建,首先从亚马逊评论数据集中筛选包含MP4格式视频的产品条目,随后采用任务导向的数据修剪策略,手动剔除无法通过视觉内容推断的属性类别。为确保视频-标题对的一致性,研究团队创新性地设计了基于CLIP的混合专家过滤机制,通过多模型相似度评分与阈值筛选,最终形成包含22.4万训练样本和2.5万评估样本的高质量数据集。
使用方法
VideoAVE支持两种典型评估范式:属性条件值预测与开放属性值对提取。在属性条件设置下,模型需根据给定属性列表从视频中提取对应值;开放设置则要求模型自主识别相关属性并生成完整值对。研究建议采用模糊匹配F1分数作为核心评估指标,以容纳自然语言表达的多样性。数据集可与主流视频语言模型兼容,支持零样本评估与微调训练,特别适用于探究时序信息对属性推断的影响机制。
背景与挑战
背景概述
VideoAVE数据集由弗吉尼亚理工学院研究团队于2025年创建,旨在解决电子商务领域多模态属性值提取的瓶颈问题。该数据集首次将视频模态引入产品属性分析领域,覆盖14个商品领域和172种独特属性,包含24.9万条高质量视频-文本配对数据。其创新性在于突破了传统文本到文本或图像到文本的提取范式,通过动态视觉信息捕捉产品隐含属性,为多模态大语言模型在电商场景的应用提供了重要基础设施。
当前挑战
该数据集核心挑战在于解决视频模态下的开放属性-值对提取问题,需同时识别相关属性并生成准确值。构建过程中面临三重困难:视频-标题对语义一致性校验需设计多专家过滤机制;动态视觉特征与静态商品描述的跨模态对齐;以及长视频中关键信息帧的噪声过滤。此外,属性值提取还需克服主观性描述视觉化、光照敏感特征识别、以及多角度时空信息融合等技术难点。
常用场景
经典使用场景
在电子商务多模态信息处理领域,VideoAVE数据集为视频到文本的属性值提取任务提供了标准化评估框架。该数据集最经典的使用场景是训练和评估视频视觉语言模型从商品视频中自动提取结构化属性值对,例如从美妆产品视频中识别'质地:喷雾'、'材质:液体'等关键属性。研究者通过输入商品视频片段,模型需要输出格式化的属性-值对,这对理解动态视觉信息与文本描述的对应关系具有重要意义。
解决学术问题
VideoAVE有效解决了多模态属性值提取中的三个核心学术问题:突破了传统文本到文本或图像到文本的模态限制,首次实现了视频模态到文本的结构化信息提取;通过覆盖14个领域172个独特属性,解决了以往数据集属性覆盖范围有限的问题;提出的CLIP-MoE过滤机制显著提升了视频-文本对的数据质量,为视频理解任务提供了更可靠的基础数据。这些突破为视频时序信息利用和跨模态对齐研究提供了重要支撑。
实际应用
在实际电子商务场景中,VideoAVE支持构建智能商品信息结构化系统,能够自动从商品展示视频中提取关键属性信息,大幅提升商品上架和管理效率。该系统可应用于商品搜索优化、个性化推荐、库存管理等环节,例如通过分析服装类商品视频自动提取'材质:棉'、'版型:修身'等属性,减少人工标注成本。同时,该技术还能帮助平台检测商品信息的一致性,提升用户体验和交易可信度。
数据集最近研究
最新研究方向
随着多模态人工智能在电子商务领域的深入应用,VideoAVE数据集推动了视频到文本属性值提取任务的前沿探索。当前研究聚焦于开发能够有效利用时序动态信息的视频视觉语言模型,以解决开放属性值对提取场景中的挑战。该数据集通过CLIP-MoE过滤机制确保数据质量,涵盖14个领域的172个独特属性,为模型提供了丰富的多角度视觉线索。相关热点包括多模态大语言模型在视频理解中的适应性研究,以及如何从长视频中提取最相关视觉内容以提升推理效率。这些进展对构建更智能的商品信息结构化系统具有重要意义,为实时视频商品分析奠定了坚实基础。
相关研究论文
- 1VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models弗吉尼亚理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成



