image-verification-corpus

github2019-09-09 更新2024-05-31 收录

下载链接：

https://github.com/AllaaTantawy/image-verification-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个不断更新的数据集，包含社交媒体（目前是Twitter）中分享的假和真图像。数据集的目的是开发一个开放的语料库，用于评估在线图像验证方法（基于推文文本和用户特征）和构建新内容的分类器（目前是包含图像的推文）。

This is a continuously updated dataset comprising both fake and genuine images shared on social media platforms (currently Twitter). The dataset aims to develop an open corpus for evaluating online image verification methods (based on tweet text and user characteristics) and constructing classifiers for new content (currently tweets containing images).

创建时间：

2019-09-09

原始信息汇总

数据集概述

数据集名称

image-verification-corpus

数据集目的

该数据集旨在开发一个开放的语料库，用于评估在线图像验证方法（基于推文文本和用户特征）以及构建新内容的分类器（目前为包含图像的推文）。

数据集组成

数据集包含以下四个文件：

set_images.txt
- 包含已通过在线来源验证的假和真图像。
- 包含字段：image_id（图像参考ID）、image_url（图像在线URL）、annotation（图像真实性声明）、event（图像来源事件）。
tweets_images.txt
- 包含用于构建数据集的推文及其包含的图像。
- 包含字段：tweet_id（推文ID）、image_id（关联图像的参考ID）、annotation（推文真实性声明）、event（推文来源事件）。
tweets_images_update.txt
- 仅包含来自前一文件的纯假推文。
- 已移除内容有趣的推文或声明内容为假的推文。
tweets_event.txt
- 包含使用过的含有假内容的推文，但这些推文已不再在线可获取。

使用指南

使用该语料库时，只需使用set_images.txt文件与已验证的图像，以及上述其他包含推文的文件之一。

引用信息

若使用此数据集进行研究，请引用以下文献：

Boididou, C., Papadopoulos, S., Zampoglou, M., Apostolidis, L., Papadopoulou, O., & Kompatsiaris, Y. (2018). Detection and visualization of misleading content on Twitter. International Journal of Multimedia Information Retrieval, 7(1), 71-86.

@article{boididou2018detection, author = {Boididou, Christina and Papadopoulos, Symeon and Zampoglou, Markos and Apostolidis, Lazaros and Papadopoulou, Olga and Kompatsiaris, Yiannis}, title = {Detection and visualization of misleading content on Twitter}, journal = {International Journal of Multimedia Information Retrieval}, volume={7}, number={1}, pages={71--86}, year={2018}, doi = "10.1007/s13735-017-0143-x",
publisher={Springer} }

搜集汇总

数据集介绍

构建方式

在构建image-verification-corpus数据集时，研究者们精心收集了社交媒体平台上（目前主要为Twitter）的虚假与真实图像帖子。数据集的核心由三个主要文件构成：set_images.txt包含经过在线验证的图像及其相关信息，如图像ID、URL、真实性标注及所属事件；tweets_images.txt则记录了与这些图像相关的推文，包括推文ID、关联图像ID、推文真实性标注及事件信息；tweets_images_update.txt进一步筛选出纯粹的虚假推文，剔除了带有幽默内容或明确声明为虚假的推文。此外，tweets_event.txt文件收录了因用户删除或账号被封而无法在线获取的虚假推文。

特点

image-verification-corpus数据集的显著特点在于其专注于社交媒体图像的真实性验证，涵盖了从图像到推文的全面信息。数据集不仅提供了图像的验证信息，还通过推文内容和用户特征进一步丰富了数据维度。此外，数据集的更新版本特别剔除了可能影响模型判断的幽默或明确声明为虚假的内容，确保了数据的高质量与纯净性。

使用方法

使用image-verification-corpus数据集时，研究者可首先利用set_images.txt文件获取经过验证的图像信息，并结合tweets_images.txt或tweets_images_update.txt文件中的推文数据进行分析。对于需要特定事件背景的研究，tweets_event.txt文件提供了额外的历史数据支持。该数据集适用于开发图像验证算法及构建内容分类器，尤其在社交媒体虚假信息检测领域具有广泛的应用前景。

背景与挑战

背景概述

在社交媒体信息传播日益频繁的背景下，虚假信息的识别与验证成为学术界与工业界共同关注的焦点。image-verification-corpus数据集由MKLab-ITI研究团队创建，旨在为社交媒体中的图像验证提供一个开放且不断更新的语料库。该数据集主要用于评估基于推文文本和用户特征的在线图像验证方法，并构建针对新内容的分类器。数据集的核心研究问题集中在如何有效区分社交媒体中的真实与虚假图像内容，尤其是在Twitter平台上。通过提供经过验证的图像及其相关推文，该数据集为研究者提供了一个标准化的测试平台，推动了多媒体信息检索领域的发展。

当前挑战

image-verification-corpus数据集在构建过程中面临诸多挑战。首先，如何从海量的社交媒体内容中筛选出具有代表性的真实与虚假图像，并确保其验证来源的可靠性，是一个复杂的过程。其次，数据集中包含了大量与图像相关的推文，如何有效提取并整合这些推文的文本特征与用户特征，以提升分类器的性能，是另一个关键挑战。此外，随着社交媒体平台的动态变化，数据集的实时更新与维护也是一个持续的难题。最后，如何在保持数据集多样性的同时，确保其标注的一致性与准确性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

image-verification-corpus数据集的经典使用场景主要集中在社交媒体图像验证领域。该数据集通过提供真实和虚假的社交媒体帖子及其关联图像，支持开发和评估在线图像验证方法。研究者可以利用此数据集构建分类器，以自动识别和验证新内容的真伪，特别是在推文文本和用户特征的基础上进行分析。

解决学术问题

该数据集解决了社交媒体中图像验证的学术研究问题，特别是在自动识别和分类虚假内容方面。通过提供经过验证的真实和虚假图像及其关联的推文，研究者能够开发和测试新的图像验证算法，从而提高社交媒体内容的可信度和透明度。这对于打击虚假信息传播、提升公众信任具有重要意义。

衍生相关工作

基于image-verification-corpus数据集，衍生了许多经典工作，特别是在图像验证和社交媒体内容分析领域。例如，MKLab-ITI的computational-verification项目利用此数据集开发了一个框架，用于评估和改进图像验证方法。此外，该数据集还被用于多个国际会议和研讨会，如MediaEval Workshop 2015的Verifying Multimedia Use任务，进一步推动了相关研究的发展。

以上内容由遇见数据集搜集并总结生成