Trust-videoLLMs
收藏arXiv2025-06-14 更新2025-06-19 收录
下载链接:
https://github.com/wangyouze/Trust-videoLLMs.git
下载链接
链接失效反馈官方服务:
资源简介:
Trust-videoLLMs数据集是一个用于评估视频大型语言模型(videoLLMs)可信度的综合基准,涵盖了真实、安全、鲁棒性、公平性和隐私五个维度。该数据集包含30个任务,涉及动态视觉场景、跨模态交互和现实世界的安全问题,旨在评估videoLLMs在多模态理解和分析方面的可信度。数据集由任务适配的现有数据集、使用高级文本/图像到视频工具生成的合成数据以及手动收集和标注的数据组成,确保了场景的多样性。该数据集为标准化可信度评估提供了一个公开可用的、可扩展的工具箱,填补了专注于准确性的基准和关键需求之间的差距。
The Trust-videoLLMs dataset is a comprehensive benchmark for evaluating the trustworthiness of video large language models (videoLLMs), covering five core dimensions: realism, safety, robustness, fairness, and privacy. It includes 30 tasks involving dynamic visual scenarios, cross-modal interactions, and real-world safety concerns, aiming to assess the trustworthiness of videoLLMs in multimodal understanding and analysis. The dataset is compiled from three sources: task-adapted existing datasets, synthetic data generated via advanced text/image-to-video generation tools, and manually collected and annotated data, which ensures the diversity of included scenarios. This dataset provides a publicly available and scalable toolkit for standardized trustworthiness evaluation, bridging the gap between accuracy-focused existing benchmarks and the critical unmet demand for rigorous trustworthiness assessment of videoLLMs.
提供机构:
合肥工业大学, 清华大学
创建时间:
2025-06-14
搜集汇总
数据集介绍

构建方式
Trust-videoLLMs数据集的构建采用了多源数据整合与人工标注相结合的方法。首先,通过任务适配的方式整合了现有视频数据集(如YouCook2、MVBench等),覆盖了动作识别、时序推理等多样化场景;其次,利用Kling、Jimeng等先进文本/图像转视频工具生成合成数据,以扩展数据多样性;最后,通过人工采集并标注YouTube等平台的视频,确保数据在时空动态性和多模态交互方面的真实性。数据集最终包含30项任务,涵盖真实性、安全性、鲁棒性、公平性和隐私五大维度,形成了层次化的评估体系。
特点
该数据集的核心特点体现在三个方面:一是动态场景的时空复杂性,通过帧丢弃、对抗扰动等操作模拟真实视频流的不完整性;二是多模态冲突设计,如文本-视频情感对立、误导性提示等任务,检验模型跨模态对齐能力;三是细粒度隐私保护评估,包含人脸、车牌等敏感信息的识别与推理控制。特别地,数据集中18%的样本嵌入了NSFW内容或深度伪造片段,为安全性和真实性评估提供压力测试场景。
使用方法
使用该数据集需遵循模块化评估流程:首先通过统一接口加载视频LLM模型,调用工具箱中的标准数据加载器处理时空扰动或多模态输入;其次运行五大维度的30项任务,其中12项判别式任务采用准确率等传统指标,18项生成式任务结合LLM-score和毒性评分等新型度量;最后通过可视化模块分析模型在跨帧推理、对抗攻击等场景的失败案例。工具箱支持扩展自定义任务,并提供了23个基线模型的性能排行榜单。
背景与挑战
背景概述
Trust-videoLLMs是由合肥工业大学和清华大学的研究团队于2025年创建的视频多模态大语言模型(videoLLM)可信度评估基准。该数据集针对视频理解任务中存在的五大可信度挑战(真实性、安全性、鲁棒性、公平性和隐私性),构建了包含30个任务的系统性评估框架。研究团队整合了现有数据集、合成数据及人工标注数据,覆盖动态视觉场景理解、跨模态交互和现实安全风险等关键维度。该工作首次系统性地解决了视频数据时空复杂性带来的可信度评估难题,为视频大模型的安全部署提供了重要基准工具。
当前挑战
Trust-videoLLMs面临的核心挑战体现在:1)领域问题方面,需解决视频时空动态性导致的幻觉、偏见和隐私泄露等复杂风险,相比静态图像任务更具挑战性;2)构建过程中,需处理多模态数据对齐、对抗样本生成、时空连贯性标注等技术难点,特别是平衡数据多样性与标注一致性。评估框架还需克服商业与开源模型的可比性难题,以及动态视频场景下细粒度可信度指标的量化问题。
常用场景
经典使用场景
Trust-videoLLMs数据集广泛应用于评估多模态大语言模型在视频理解任务中的可信度。该数据集通过30个精心设计的任务,覆盖了真实性、安全性、鲁棒性、公平性和隐私性五个核心维度,为研究人员提供了一个全面评估视频理解模型性能的标准化平台。特别是在动态视觉场景理解、跨模态交互和现实世界安全风险等复杂场景中,该数据集展现了其独特的价值。
衍生相关工作
Trust-videoLLMs数据集已经衍生出多个重要的相关研究工作。基于该数据集构建的评估框架被扩展应用于更广泛的视频理解任务,如VideoHallucer对视频幻觉现象的专门研究,以及VideoJail对多模态越狱攻击的系统分析。同时,该数据集提出的五维评估范式也启发了后续研究,如MultiTrust对多模态模型可信度的全面评估框架。这些衍生工作共同推动了视频理解领域向更可靠、更安全的方向发展。
数据集最近研究
最新研究方向
随着多模态大语言模型(videoLLMs)在视频理解领域的快速发展,Trust-videoLLMs数据集的推出为评估模型的信任度提供了全面基准。该数据集聚焦于动态视觉场景理解和跨模态交互的鲁棒性,涵盖了真实性、安全性、鲁棒性、公平性和隐私性五个核心维度。前沿研究方向包括提升模型对时空复杂数据的处理能力、增强对抗干扰的抵抗力,以及优化多模态融合机制。热点事件涉及商业化模型(如Claude和Gemini系列)与开源模型的性能对比,揭示了数据多样性优于参数规模的关键发现。该数据集的影响在于填补了现有评估体系在动态场景标准和安全伦理需求间的鸿沟,为构建可信赖的视频理解系统提供了标准化工具和理论支撑。
相关研究论文
- 1Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding合肥工业大学, 清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



