Fake Video Corpus|视频验证数据集|虚假内容检测数据集

github2024-03-26 更新2024-05-31 收录

视频验证

虚假内容检测

下载链接：

https://github.com/MKLab-ITI/fake-video-corpus

下载链接

链接失效反馈

资源简介：

这是一个首个已知的注释数据集，包含被揭穿和验证的用户生成视频（UGVs），以及它们的多版本近似重复转发。数据集涵盖了政治、体育、自然灾害、事故、战争等多种事件类别的视频。目前，数据集包含200个独特的被揭穿视频（也称为假视频）和180个独特的验证视频（也称为真实视频）。

This is the first known annotated dataset comprising debunked and verified user-generated videos (UGVs), along with their multi-version near-duplicate reposts. The dataset spans a variety of event categories including politics, sports, natural disasters, accidents, and wars. Currently, the dataset contains 200 unique debunked videos (also referred to as fake videos) and 180 unique verified videos (also referred to as true videos).

创建时间：

2018-10-05

原始信息汇总

数据集概述

数据集名称

fake-video-corpus

数据集内容

视频类型：包含200个独特的被揭穿的（假）视频和180个独特的被验证的（真）视频。
视频分类：
- 假视频：包括演员表演、错误背景信息、旧视频冒充新事件、内容编辑修改、计算机生成图像等。
- 真视频：未具体说明。

数据集扩展过程

原始视频标题：用于搜索。
事件标题：将视频标题转换为更通用的形式。
多语言翻译：将事件标题翻译成俄语、阿拉伯语、法语和德语。
平台搜索：在YouTube、Facebook、Twitter上使用标题和翻译进行搜索。
近似重复视频检索：使用算法在搜索结果中查找近似重复视频。
手动验证：移除错误结果，保留实际近似重复视频。

数据集规模

总计：包含3957个标记为假和2458个标记为真的视频。

数据集文件

FVC.csv：包含初始的200个假视频和180个真视频。
FVC_dup.csv：包含近似重复视频。
FVC_text_queries.csv：包含用于检索近似重复视频的文本查询。

许可和致谢

许可：数据集根据CC BY-NC-SA 4.0许可提供。
支持项目：由InVID项目支持，该项目由欧洲委员会资助。

引用信息

参考文献：Papadopoulou, O., Zampoglou, M., Papadopoulos, S., & Kompatsiaris, Y. (2018). A Corpus of Debunked and Verified User-Generated Videos. Online Information Review.
DOI：10.1108/OIR-03-2018-0101

联系信息

联系人：Olga Papadopoulou (olgapapa@iti.gr)

AI搜集汇总

数据集介绍

构建方式

Fake Video Corpus数据集的构建过程采用了自动化与人工标注相结合的方式。首先，基于原始视频的标题生成事件标题，并将其翻译为俄语、阿拉伯语、法语和德语，以扩大搜索范围。随后，利用这些查询在YouTube、Facebook和Twitter等平台上检索相关视频，并通过近重复视频检索算法筛选出候选视频。最后，经过人工检查，剔除错误结果，保留真实的近重复视频。整个数据集包含3957个标注为虚假的视频和2458个标注为真实的视频。

使用方法

Fake Video Corpus数据集的使用方法较为直观。初始的200个虚假视频和180个真实视频存储在FVC.csv文件中，近重复视频信息则保存在FVC_dup.csv文件中，而用于检索近重复视频的文本查询记录在FVC_text_queries.csv文件中。研究人员可通过这些文件进行视频真实性分析、近重复视频检测以及虚假信息传播模式的研究。使用该数据集时，需遵循CC BY-NC-SA 4.0许可协议，并在研究中引用相关论文以支持学术规范。

背景与挑战

背景概述

Fake Video Corpus数据集由希腊信息技术与通信研究所（ITI）的Olga Papadopoulou等人于2018年创建，旨在为虚假视频检测领域提供首个经过标注的用户生成视频（UGV）数据集。该数据集包含200个被证伪的视频和180个已验证的真实视频，涵盖了政治、体育、自然灾害、事故、战争等多个事件类别。通过结合文本搜索和近重复视频检索的自动化流程，研究人员进一步扩展了数据集，最终包含3957个标注为虚假的视频和2458个标注为真实的视频。该数据集为虚假视频检测、内容验证以及社交媒体信息可信度评估等研究提供了重要资源，推动了相关领域的技术发展。

当前挑战

Fake Video Corpus数据集在构建过程中面临多重挑战。首先，虚假视频的多样性和复杂性使得标注工作异常困难，尤其是涉及视频内容篡改、虚假上下文信息以及计算机生成图像（CGI）等类型。其次，近重复视频的检索和验证需要高效的算法和大量的人工干预，以确保数据的准确性和一致性。此外，社交媒体平台的API限制和用户隐私问题导致部分相关视频无法纳入数据集，进一步增加了数据收集的难度。这些挑战不仅反映了虚假视频检测领域的复杂性，也为未来研究提供了改进方向。

常用场景

经典使用场景

Fake Video Corpus数据集在虚假视频检测领域具有广泛的应用。该数据集通过提供大量经过标注的虚假和真实用户生成视频（UGVs），为研究人员提供了一个标准化的测试平台。特别是在视频内容真实性验证、虚假信息传播分析以及多媒体取证等领域，该数据集被频繁用于训练和评估机器学习模型。其多样化的视频类别和详细的标注信息，使得研究者能够深入探讨不同类型虚假视频的特征和传播模式。

解决学术问题

Fake Video Corpus数据集有效解决了虚假视频检测中的多个关键学术问题。首先，它提供了一个包含多种虚假视频类型的标准化数据集，填补了该领域数据匮乏的空白。其次，通过标注视频的真实性和虚假性，该数据集为研究者提供了明确的标签，便于开发基于监督学习的检测算法。此外，数据集中的近重复视频检索功能，使得研究者能够分析虚假视频在不同平台上的传播路径和变异情况，从而为虚假信息的溯源和阻断提供了理论支持。

实际应用

在实际应用中，Fake Video Corpus数据集被广泛用于社交媒体平台的虚假视频检测系统。例如，YouTube、Facebook和Twitter等平台可以利用该数据集训练自动化检测工具，以识别和标记潜在的虚假视频内容。此外，新闻机构和事实核查组织也可以借助该数据集，快速验证用户生成视频的真实性，从而减少虚假信息的传播。在公共安全领域，该数据集还被用于监测和应对自然灾害、恐怖袭击等紧急事件中的虚假信息传播，确保公众获取准确的信息。

数据集最近研究

最新研究方向

在数字媒体与信息验证领域，Fake Video Corpus数据集为研究者提供了一个独特的资源，用于深入分析用户生成视频（UGV）的真实性与传播模式。随着社交媒体平台上虚假信息的泛滥，该数据集的研究方向主要集中在开发先进的算法和技术，以自动检测和验证视频内容的真实性。研究者们利用该数据集中的标注信息，探索视频内容的篡改痕迹、上下文信息的准确性以及视频的传播路径，从而构建更为精准的虚假视频检测模型。此外，该数据集还被用于研究跨语言和跨平台的视频传播行为，揭示不同文化背景下虚假信息的传播机制。这些研究不仅推动了信息验证技术的发展，也为政策制定者提供了科学依据，以应对日益复杂的网络信息环境。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Simulation of rear wheel steering in a vehicle towing a single axle trailer with variable load distribution

This is the dataset for a publication on the stability of automotive vehicles when towing single axle trailers. The loading of the trailer is critical for stability, if the load distribution is too far back, then the trailer will begin to sway uncontrollably, dictating the track of the vehicle.In this research, small proportional control of the rear wheel steering of a larger towing vehicle is shown to be able to further stabilize the system easily, thus improving the safety margin. This is based on control measurements of the yaw angle, either directly measured or inferred from rear camera / parking sensor measurements.The simulation environment is Simulink and all scripts are included to initialise and plot the results. The work is based on the built in example "Two axle vehicle towing one axle trailer" with modifications to enable control algorithms for rear wheel steering control and variable load distribution. Reference for the original model is available at:T. M. Inc., Vehicle dynamics blockset version: 2.0 (r2023a) (2022). https://www.mathworks.comT. M. Inc., Trailer body 3dof documentation (2020). https://uk.mathworks.com/help/vdynblks/ref/trailerbody3dof.html<br>

DataCite Commons 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

VOC2007

http://host.robots.ox.ac.uk/pascal/VOC/

阿里云天池收录