five

Fake Video Corpus|视频验证数据集|虚假内容检测数据集

收藏
github2024-03-26 更新2024-05-31 收录
视频验证
虚假内容检测
下载链接:
https://github.com/MKLab-ITI/fake-video-corpus
下载链接
链接失效反馈
资源简介:
这是一个首个已知的注释数据集,包含被揭穿和验证的用户生成视频(UGVs),以及它们的多版本近似重复转发。数据集涵盖了政治、体育、自然灾害、事故、战争等多种事件类别的视频。目前,数据集包含200个独特的被揭穿视频(也称为假视频)和180个独特的验证视频(也称为真实视频)。

This is the first known annotated dataset comprising debunked and verified user-generated videos (UGVs), along with their multi-version near-duplicate reposts. The dataset spans a variety of event categories including politics, sports, natural disasters, accidents, and wars. Currently, the dataset contains 200 unique debunked videos (also referred to as fake videos) and 180 unique verified videos (also referred to as true videos).
创建时间:
2018-10-05
原始信息汇总

数据集概述

数据集名称

  • fake-video-corpus

数据集内容

  • 视频类型:包含200个独特的被揭穿的(假)视频和180个独特的被验证的(真)视频。
  • 视频分类
    • 假视频:包括演员表演、错误背景信息、旧视频冒充新事件、内容编辑修改、计算机生成图像等。
    • 真视频:未具体说明。

数据集扩展过程

  1. 原始视频标题:用于搜索。
  2. 事件标题:将视频标题转换为更通用的形式。
  3. 多语言翻译:将事件标题翻译成俄语、阿拉伯语、法语和德语。
  4. 平台搜索:在YouTube、Facebook、Twitter上使用标题和翻译进行搜索。
  5. 近似重复视频检索:使用算法在搜索结果中查找近似重复视频。
  6. 手动验证:移除错误结果,保留实际近似重复视频。

数据集规模

  • 总计:包含3957个标记为假和2458个标记为真的视频。

数据集文件

  • FVC.csv:包含初始的200个假视频和180个真视频。
  • FVC_dup.csv:包含近似重复视频。
  • FVC_text_queries.csv:包含用于检索近似重复视频的文本查询。

许可和致谢

  • 许可:数据集根据CC BY-NC-SA 4.0许可提供。
  • 支持项目:由InVID项目支持,该项目由欧洲委员会资助。

引用信息

联系信息

AI搜集汇总
数据集介绍
main_image_url
构建方式
Fake Video Corpus数据集的构建过程采用了自动化与人工标注相结合的方式。首先,基于原始视频的标题生成事件标题,并将其翻译为俄语、阿拉伯语、法语和德语,以扩大搜索范围。随后,利用这些查询在YouTube、Facebook和Twitter等平台上检索相关视频,并通过近重复视频检索算法筛选出候选视频。最后,经过人工检查,剔除错误结果,保留真实的近重复视频。整个数据集包含3957个标注为虚假的视频和2458个标注为真实的视频。
使用方法
Fake Video Corpus数据集的使用方法较为直观。初始的200个虚假视频和180个真实视频存储在FVC.csv文件中,近重复视频信息则保存在FVC_dup.csv文件中,而用于检索近重复视频的文本查询记录在FVC_text_queries.csv文件中。研究人员可通过这些文件进行视频真实性分析、近重复视频检测以及虚假信息传播模式的研究。使用该数据集时,需遵循CC BY-NC-SA 4.0许可协议,并在研究中引用相关论文以支持学术规范。
背景与挑战
背景概述
Fake Video Corpus数据集由希腊信息技术与通信研究所(ITI)的Olga Papadopoulou等人于2018年创建,旨在为虚假视频检测领域提供首个经过标注的用户生成视频(UGV)数据集。该数据集包含200个被证伪的视频和180个已验证的真实视频,涵盖了政治、体育、自然灾害、事故、战争等多个事件类别。通过结合文本搜索和近重复视频检索的自动化流程,研究人员进一步扩展了数据集,最终包含3957个标注为虚假的视频和2458个标注为真实的视频。该数据集为虚假视频检测、内容验证以及社交媒体信息可信度评估等研究提供了重要资源,推动了相关领域的技术发展。
当前挑战
Fake Video Corpus数据集在构建过程中面临多重挑战。首先,虚假视频的多样性和复杂性使得标注工作异常困难,尤其是涉及视频内容篡改、虚假上下文信息以及计算机生成图像(CGI)等类型。其次,近重复视频的检索和验证需要高效的算法和大量的人工干预,以确保数据的准确性和一致性。此外,社交媒体平台的API限制和用户隐私问题导致部分相关视频无法纳入数据集,进一步增加了数据收集的难度。这些挑战不仅反映了虚假视频检测领域的复杂性,也为未来研究提供了改进方向。
常用场景
经典使用场景
Fake Video Corpus数据集在虚假视频检测领域具有广泛的应用。该数据集通过提供大量经过标注的虚假和真实用户生成视频(UGVs),为研究人员提供了一个标准化的测试平台。特别是在视频内容真实性验证、虚假信息传播分析以及多媒体取证等领域,该数据集被频繁用于训练和评估机器学习模型。其多样化的视频类别和详细的标注信息,使得研究者能够深入探讨不同类型虚假视频的特征和传播模式。
解决学术问题
Fake Video Corpus数据集有效解决了虚假视频检测中的多个关键学术问题。首先,它提供了一个包含多种虚假视频类型的标准化数据集,填补了该领域数据匮乏的空白。其次,通过标注视频的真实性和虚假性,该数据集为研究者提供了明确的标签,便于开发基于监督学习的检测算法。此外,数据集中的近重复视频检索功能,使得研究者能够分析虚假视频在不同平台上的传播路径和变异情况,从而为虚假信息的溯源和阻断提供了理论支持。
实际应用
在实际应用中,Fake Video Corpus数据集被广泛用于社交媒体平台的虚假视频检测系统。例如,YouTube、Facebook和Twitter等平台可以利用该数据集训练自动化检测工具,以识别和标记潜在的虚假视频内容。此外,新闻机构和事实核查组织也可以借助该数据集,快速验证用户生成视频的真实性,从而减少虚假信息的传播。在公共安全领域,该数据集还被用于监测和应对自然灾害、恐怖袭击等紧急事件中的虚假信息传播,确保公众获取准确的信息。
数据集最近研究
最新研究方向
在数字媒体与信息验证领域,Fake Video Corpus数据集为研究者提供了一个独特的资源,用于深入分析用户生成视频(UGV)的真实性与传播模式。随着社交媒体平台上虚假信息的泛滥,该数据集的研究方向主要集中在开发先进的算法和技术,以自动检测和验证视频内容的真实性。研究者们利用该数据集中的标注信息,探索视频内容的篡改痕迹、上下文信息的准确性以及视频的传播路径,从而构建更为精准的虚假视频检测模型。此外,该数据集还被用于研究跨语言和跨平台的视频传播行为,揭示不同文化背景下虚假信息的传播机制。这些研究不仅推动了信息验证技术的发展,也为政策制定者提供了科学依据,以应对日益复杂的网络信息环境。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)

该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。

国家地球系统科学数据中心 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录