ComVID

Name: ComVID
Creator: 印度理工学院帕特纳分校
Published: 2025-09-24 18:00:05
License: 暂无描述

arXiv2025-09-24 更新2025-11-21 收录

下载链接：

https://github.com/sarmistha-D/CoD-V

下载链接

链接失效反馈

官方服务：

资源简介：

ComVID是一个包含1175个投诉视频及其对应描述的视频投诉数据集，这些描述还标注了投诉者的情绪状态。数据集涵盖了四个领域：时尚、电子产品、家居用品和其他，旨在帮助用户通过视频内容生成详细的投诉描述，增强顾客表达不满的能力，并促进对用户不愉快体验的深入理解。

ComVID is a video complaint dataset consisting of 1175 complaint videos and their corresponding descriptions, where the descriptions are further annotated with the emotional states of the complainants. The dataset covers four domains: fashion, consumer electronics, home goods, and others. It aims to assist users in generating detailed complaint descriptions based on video content, enhance customers' ability to express dissatisfaction, and facilitate in-depth understanding of users' unpleasant experiences.

提供机构：

印度理工学院帕特纳分校

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

在电子商务平台日益普及的背景下，ComVID数据集的构建聚焦于解决用户难以通过文字清晰表达产品投诉的问题。研究团队从亚马逊平台采集了1,175条涵盖电子产品、家居用品、时尚单品等四大领域的用户投诉视频，通过网页爬虫技术提取1-2星评分视频并转换为标准化MP4格式。采用多阶段人工标注流程，由五名语言学专家对视频内容进行描述生成和情感标签标注，通过交叉验证确保描述与视频内容的一致性，最终形成包含情感状态标注的高质量多模态数据集。

使用方法

该数据集主要服务于视频到文本的投诉生成任务（CoD-V），研究者可通过检索增强生成框架将视频特征与外部知识库结合。具体流程包括使用CLIP编码器提取视频关键帧特征，通过FAISS索引检索相似投诉案例，结合用户情感标签输入到微调后的VideoLLaMA2-7b模型中生成结构化投诉描述。评估时可采用特制的投诉保留指标（CR），综合考量情感强度、方面保持度等维度，为电子商务场景下的智能客服系统构建提供技术支撑。

背景与挑战

背景概述

随着电子商务向农村及低教育水平人群的快速渗透，传统文本投诉机制难以满足用户表达需求。印度理工学院帕蒂纳分校与微软研究院于2025年联合推出ComVID数据集，聚焦视频投诉文本生成这一新兴研究方向。该数据集包含1,175条涵盖电子产品、家居用品等四大领域的投诉视频，每条视频均标注情感状态与结构化描述，旨在解决语言障碍群体在电商平台投诉表达困难的核心问题，为多模态自然语言处理领域开辟了新的研究路径。

当前挑战

在领域问题层面，视频投诉生成需克服三重挑战：传统视频摘要模型难以捕捉细粒度产品缺陷特征，情感意图识别易受非语言线索干扰，跨模态对齐要求视觉证据与文本描述保持语义一致性。构建过程中面临标注复杂性：视频内容涵盖从功能缺陷到情感表达的多元信息，需通过多轮人工标注确保描述准确性与情感标签可靠性；数据采集需平衡电子产品和日用品的领域分布，同时处理非英语用户的方言表达问题。

常用场景

经典使用场景

在电子商务平台日益普及的背景下，ComVID数据集为视频投诉分析提供了关键支持。该数据集通过1175个标注视频样本，覆盖电子产品、家居用品和时尚商品等多个领域，使研究人员能够训练模型从视觉内容中提取投诉要点。其典型应用场景包括构建端到端的投诉生成系统，帮助模型理解用户上传视频中展示的产品缺陷，如耳机损坏或键盘失灵等问题，并转化为结构化的文本描述。

解决学术问题

ComVID数据集致力于解决多模态自然语言生成领域的核心挑战。它通过融合视觉与情感信息，突破了传统文本投诉分析的局限性，为表达能力受限的用户群体提供了技术支撑。该数据集推动了对视频语义理解、情感融合生成等问题的研究，其创新的投诉保留评估指标（CR）为衡量生成内容与原始投诉的契合度提供了量化标准，显著提升了多模态交互系统的学术研究价值。

实际应用

该数据集在电子商务客户服务领域展现出重要应用潜力。通过将用户上传的缺陷商品视频自动转化为详细投诉文本，有效解决了文化水平有限用户群体的表达障碍。实际部署中，该系统可集成至电商平台审核流程，辅助客服人员快速定位产品问题，缩短投诉处理周期。此外，在医疗健康领域，类似技术也可用于患者症状视频的自动化报告生成，拓展了多模态交互技术的应用边界。

数据集最近研究