MintVid

Name: MintVid
Creator: 中国科学院·自动化研究所; 蚂蚁集团; 中国科学院·深圳先进技术研究院; 中国科学院大学·人工智能学院
Published: 2026-02-10 00:00:01
License: 暂无描述

arXiv2026-02-10 更新2026-02-11 收录

下载链接：

https://github.com/EricTan7/VideoVeritas

下载链接

链接失效反馈

官方服务：

资源简介：

MintVid是由中国科学院与蚂蚁集团联合构建的高质量AI生成视频检测数据集，包含3000条视频样本，涵盖9种前沿生成模型。数据集分为三部分：1.5K高度逼真的专有模型生成视频（含文本/图像到视频内容）、2K基于3种公开模型的深度伪造视频，以及从短视频平台收集的真实场景含事实错误子集。其数据来源多样，覆盖通用内容、面部伪造和事实推理三大场景，旨在解决现有数据集时效性不足、时空一致性差等问题，为AI生成视频检测提供鲁棒性评估基准。

MintVid is a high-quality AI-generated video detection dataset jointly constructed by the Chinese Academy of Sciences and Ant Group. It contains 3,000 video samples covering 9 cutting-edge generative models. The dataset is divided into three parts: 1. 1.5K highly realistic videos generated by proprietary models (including text-to-video and image-to-video content); 2. 2K deepfake videos based on 3 public models; and 3. a subset of real-world videos with factual errors collected from short-video platforms. The dataset has diverse data sources, covering three scenarios: general content, face forgery, and factual reasoning. It aims to address the limitations of existing datasets such as insufficient timeliness and poor spatial-temporal consistency, providing a robust evaluation benchmark for AI-generated video detection.

提供机构：

中国科学院·自动化研究所; 蚂蚁集团; 中国科学院·深圳先进技术研究院; 中国科学院大学·人工智能学院

创建时间：

2026-02-10

原始信息汇总

VideoVeritas数据集概述

数据集基本信息

数据集名称: MintVid
数据集地址: https://www.modelscope.cn/datasets/EricTanh/MintVid
所属项目: VideoVeritas
项目目标: 通过感知借口强化学习进行AI生成视频检测

数据集内容与构成

数据规模: 包含3K（约3000个）视频
视频来源: 来自9种最先进的生成器
数据构成:
1. 通用内容视频
2. 面部相关视频
3. 基于事实的视频（包含内容事实错误）
数据特点: 轻量但高质量，包含真实世界收集的子集

数据集用途

主要用途: 用于AI生成视频检测的鲁棒性评估
支持任务: 细粒度感知和基于事实的推理
实验验证: 用于验证VideoVeritas框架的平衡性能

相关资源

论文地址: https://arxiv.org/pdf/2602.08828
代码仓库: https://github.com/EricTan7/VideoVeritas
许可证: Apache 2.0 License

搜集汇总

数据集介绍

构建方式

在人工智能生成视频检测领域，MintVid数据集作为一项轻量级高质量资源应运而生。该数据集精心整合了三个核心部分：首先，从六款前沿专有模型中采集了1500个高度逼真的通用内容视频，涵盖文本到视频和图像到视频两种生成模式；其次，通过三款先进开源模型构建了2000个人脸深度伪造视频；最后，从短视频平台收集了包含事实错误的内容构成事实推理子集。所有视频均经过人工筛选，确保内容质量与评估价值。

使用方法

该数据集主要应用于人工智能生成视频检测模型的性能评估与比较研究。研究人员可将MintVid作为测试基准，分别验证模型在通用内容、人脸伪造和事实错误视频上的检测准确率。使用时应遵循标准评估协议，将数据集划分为相应子集进行独立测试，同时可结合现有基准数据集进行跨域性能分析。通过系统性的实验设计，能够深入揭示不同检测方法在细粒度感知与高层推理之间的平衡能力，推动检测技术向更稳健、更可解释的方向发展。

背景与挑战

背景概述

随着视频生成技术的飞速发展，AI生成视频在丰富数字生活的同时，也引发了日益严峻的安全风险，使得可靠的视频真实性检测变得至关重要。在此背景下，MintVid数据集应运而生，由中国科学院自动化研究所、蚂蚁集团等机构的研究团队于2026年创建，旨在为AI生成视频检测领域提供更鲁棒、全面的评估基准。该数据集的核心研究问题聚焦于解决现有评估数据中视频来源单一、生成模型过时以及缺乏事实推理场景等局限性。MintVid精心构建了包含通用内容、人像视频和基于事实错误的三类视频子集，涵盖了9种前沿生成模型，其高质量和多样性显著提升了相关检测方法的评估挑战性，对推动视频伪造检测技术向更精细感知与逻辑推理相结合的方向发展产生了重要影响。

当前挑战

MintVid数据集旨在解决的领域核心挑战是AI生成视频的鲁棒性检测与可解释性分析。具体而言，现有方法往往在细粒度感知与事实推理能力上失衡：基于纯强化学习的方法容易陷入对光照、环境等表层特征的分析，而基于监督微调的方法则可能产生机械化的、模板式的推理，难以应对内容违反客观事实的AI仿制视频。在数据集构建过程中，研究团队面临多重挑战：首先，需要整合来自不同前沿生成模型的高质量视频，确保其时间一致性与视觉真实性，以模拟日益逼真的生成技术；其次，构建基于事实错误的子集要求从短视频平台手动收集并筛选视频，并确保其内容可通过客观事实进行验证，这一过程耗时且对标注质量要求极高；最后，如何设计一个轻量但全面的数据集结构，以同时支持通用内容、人像及事实推理等多维度的评估，也是对数据工程设计的重大考验。

常用场景

经典使用场景

在人工智能生成视频检测领域，MintVid数据集被广泛用于评估多模态大语言模型在细粒度感知与事实推理方面的综合能力。该数据集精心构建了三个子集：通用内容视频、面部视频以及基于事实的子集，为研究者提供了涵盖不同生成模型与场景的标准化测试平台。其经典使用场景在于系统性地评测检测模型在面对高度逼真的生成视频、专业面部合成内容以及包含客观事实错误的视频时的鲁棒性与泛化性能，成为衡量前沿检测算法平衡性的重要基准。

解决学术问题

MintVid数据集有效解决了当前AI生成视频检测研究中的若干关键学术问题。首先，它弥补了现有数据集中视频来源单一、时间一致性不足的缺陷，通过集成多种前沿生成模型的高质量视频，提供了更具挑战性的评估环境。其次，数据集特别引入基于事实推理的子集，推动研究从简单的二分类判别转向结合语义理解与逻辑推理的深度检测，有助于揭示模型在机械分析与事实判断之间的能力失衡问题。该数据集的构建为探索感知与推理的协同机制提供了实证基础，促进了检测方法从表面特征学习到深层语义理解的范式转变。

实际应用

在实际应用层面，MintVid数据集为构建可靠的AI生成视频检测系统提供了关键的训练与评估资源。其涵盖的多样化视频类型可直接服务于内容审核平台，帮助识别短视频平台中可能存在的深度伪造内容与事实性错误信息。在安全领域，该数据集支持开发面向政治人物面部合成视频的专项检测工具，防范恶意伪造带来的社会风险。此外，基于事实子集的引入使得检测系统能够结合外部知识进行逻辑验证，为新闻真实性核查、学术打假等场景提供了可扩展的技术框架，增强了AI治理在实际复杂环境中的适用性与可信度。

数据集最近研究