image-verification-corpus

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/MKLab-ITI/image-verification-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个不断更新的数据集，包含社交媒体（目前为Twitter）上分享的真实和伪造的带有图像的帖子。数据集的目的是开发一个开放的语料库，用于评估在线图像验证方法（基于推文文本和用户特征），并构建新内容的分类器（目前为包含图像的推文）。

This is a continuously updated dataset comprising genuine and fabricated posts with images shared on social media platforms (currently Twitter). The dataset aims to develop an open corpus for evaluating online image verification methods (based on tweet text and user characteristics) and to construct classifiers for new content (currently tweets containing images).

创建时间：

2014-04-07

原始信息汇总

数据集概述

数据集名称

image-verification-corpus

数据集目的

用于评估在线图像验证方法（基于推文文本和用户特征）和构建新内容的分类器（目前为包含图像的推文）。

数据集组成

set_images.txt
- 包含已验证的假和真图像。
- 字段：image_id, image_url, annotation, event。
tweets_images.txt
- 包含用于构建数据集的推文及其包含的图像。
- 字段：tweet_id, image_id, annotation, event。
tweets_images_update.txt
- 仅包含从tweets_images.txt中筛选出的纯假推文。
tweets_event.txt
- 包含已不再在线可用的假内容推文。

使用说明

使用set_images.txt文件与任一包含推文的文件配合使用。

引用信息

论文1：C. Boididou, S. Papadopoulos, Y. Kompatsiaris, S. Schifferes, N. Newman. Challenges of Computational Verification in Social Media. In Proceedings of SNOW II: Social News on the Web workshop, WWW14 Companion.
论文2：Boididou, C., Papadopoulos, S., Zampoglou, M., Apostolidis, L., Papadopoulou, O., & Kompatsiaris, Y. (2018). Detection and visualization of misleading content on Twitter. International Journal of Multimedia Information Retrieval, 7(1), 71-86.

数据集版本

MediaEval Workshop 2015：包含在mediaeval2015文件夹中，分为devset和testset用于训练和测试。

搜集汇总

数据集介绍

构建方式

在构建image-verification-corpus数据集时，研究者们通过收集社交媒体（目前主要为Twitter）上的真实与虚假图像帖子，形成了一个动态更新的数据集。该数据集的核心文件包括set_images.txt、tweets_images.txt、tweets_images_update.txt和tweets_event.txt。其中，set_images.txt记录了经过在线验证的真实与虚假图像，tweets_images.txt则关联了这些图像的推文。tweets_images_update.txt进一步筛选出纯粹的虚假推文，而tweets_event.txt则保留了那些因用户删除或账号被封而无法在线获取的虚假推文。

使用方法

使用image-verification-corpus数据集时，用户可从set_images.txt文件中获取经过验证的图像，并结合tweets_images.txt或tweets_images_update.txt文件中的推文信息进行分析。数据集特别适用于开发在线图像验证方法和构建新的内容分类器。此外，数据集的medieval2015文件夹中提供了为MediaEval Workshop 2015的Verifying Multimedia Use任务准备的版本，其中包含了用于训练和测试的推文数据及其相关特征。在使用该数据集进行研究时，请务必引用相关文献以确保学术诚信。

背景与挑战

背景概述

在社交媒体日益普及的背景下，图像验证成为了一个重要的研究领域。image-verification-corpus数据集由MKLab-ITI机构的研究人员创建，旨在为在线图像验证方法的评估提供一个开放的语料库。该数据集包含了在社交媒体（目前主要是Twitter）上分享的真实和虚假图像及其相关推文，通过这些数据，研究人员可以构建分类器来识别新内容的真伪。数据集的创建时间可追溯至2015年，并在MediaEval Workshop 2015中作为Verifying Multimedia Use任务的一部分发布。该数据集的核心研究问题是如何通过计算方法验证社交媒体中的图像真实性，其影响力在于为相关领域的研究提供了丰富的数据资源和评估基准。

当前挑战

image-verification-corpus数据集在构建过程中面临了多个挑战。首先，数据的真实性验证依赖于在线来源，这要求研究人员具备高度的数据筛选和验证能力。其次，数据集需要不断更新以反映社交媒体内容的动态变化，这增加了数据维护的复杂性。此外，数据集中包含的推文和图像特征提取也是一个技术难题，特别是如何准确地从推文中提取与图像相关的信息。最后，数据集的使用需要考虑到隐私和伦理问题，确保在研究过程中不侵犯用户隐私。这些挑战共同构成了该数据集在图像验证领域中的重要研究方向。

常用场景

经典使用场景

在社交媒体分析领域，image-verification-corpus数据集的经典使用场景主要集中在图像验证和内容真实性评估。该数据集通过收集并标注社交媒体平台上的真实和虚假图像，为研究者提供了一个丰富的资源库，用于开发和测试图像验证算法。通过结合推文文本和用户特征，研究者可以构建分类器，以自动识别和验证新发布内容的真伪。

解决学术问题

该数据集解决了社交媒体中图像验证的常见学术研究问题，特别是在虚假信息检测和内容真实性评估方面。通过提供经过验证的真实和虚假图像及其相关推文，研究者能够开发和优化图像验证模型，从而提高社交媒体内容的真实性检测能力。这不仅有助于学术界在信息验证领域的研究进展，还对社会媒体平台的健康发展具有重要意义。

实际应用

在实际应用中，image-verification-corpus数据集被广泛用于社交媒体平台的虚假信息检测系统。通过训练和测试图像验证模型，平台可以自动识别和标记虚假或误导性内容，从而提高用户内容的真实性和可信度。此外，该数据集还被用于新闻机构和信息传播机构，帮助他们验证和筛选社交媒体上的信息，确保新闻报道的准确性和可靠性。

数据集最近研究