mirage-news

Hugging Face2024-10-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/anson-huang/mirage-news

下载链接

链接失效反馈

官方服务：

资源简介：

MiRAGeNews数据集包含15,000条真实或AI生成的多模态新闻（图像-标题对），分为训练集10,000对，验证集2,500对，以及五个测试集各500对。测试集中的四个用于评估检测器的泛化能力，来自未见过的出版商和图像生成器。数据来源包括New York Times、BBC、CNN和Midjourney、DALL-E 3、SDXL等图像生成器。

The MiRAGeNews Dataset contains 15,000 real or AI-generated multimodal news items (image-caption pairs), split into a training set of 10,000 pairs, a validation set of 2,500 pairs, and five test sets each with 500 pairs. Four of the test sets are used to evaluate the generalization ability of detectors, originating from unseen publishers and image generators. The data sources include New York Times, BBC, CNN, and image generators such as Midjourney, DALL-E 3, SDXL, and others.

创建时间：

2024-10-15

原始信息汇总

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

数据集概述

语言: 英语 (en)
任务类别:
- 图像分类
- 文本分类

数据集信息

特征:
- image: 图像数据
- label: 标签数据，包含两个类别：
  - 0: real (真实)
  - 1: fake (虚假)
- text: 文本数据
数据集划分:
- train: 训练集，包含10,000个样本，大小为423,700,581字节
- validation: 验证集，包含2,500个样本，大小为114,657,830.5字节
- test1_nyt_mj: 测试集1，包含500个样本，大小为20,268,959字节
- test2_bbc_dalle: 测试集2，包含500个样本，大小为809,671,998字节
- test3_cnn_dalle: 测试集3，包含500个样本，大小为816,625,919字节
- test4_bbc_sdxl: 测试集4，包含500个样本，大小为46,012,642字节
- test5_cnn_sdxl: 测试集5，包含500个样本，大小为54,777,479字节
数据集大小:
- 下载大小: 2,082,145,220字节
- 数据集总大小: 2,285,715,408.5字节

配置信息

配置名称: default
数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test1_nyt_mj: data/test1_nyt_mj-*
- test2_bbc_dalle: data/test2_bbc_dalle-*
- test3_cnn_dalle: data/test3_cnn_dalle-*
- test4_bbc_sdxl: data/test4_bbc_sdxl-*
- test5_cnn_sdxl: data/test5_cnn_sdxl-*

数据来源

训练集 + 验证集: New York Times + Midjourney
测试集1: New York Times + Midjourney
测试集2: BBC + DALL-E 3
测试集3: CNN + DALL-E 3
测试集4: BBC + SDXL
测试集5: CNN + SDXL

搜集汇总

数据集介绍

构建方式

MiRAGeNews数据集构建于多模态新闻检测领域，旨在区分真实与AI生成的新闻内容。该数据集包含15,000条新闻样本，涵盖图像与文本对，其中训练集包含10,000对，验证集包含2,500对，测试集则分为五个子集，每集包含500对。数据来源包括《纽约时报》、BBC和CNN等新闻出版商，以及Midjourney、DALL-E 3和SDXL等图像生成器。测试集特别设计为跨域数据，以评估检测模型的泛化能力。

特点

MiRAGeNews数据集的特点在于其多模态性质，结合了图像与文本信息，为研究者提供了丰富的分析维度。数据集中每一条新闻样本均标注为“真实”或“虚假”，便于监督学习任务。此外，测试集涵盖了不同新闻出版商和图像生成器的组合，能够有效检验模型在未见数据上的表现。数据集的多样性和跨域设计使其成为评估新闻真实性检测模型性能的理想选择。

使用方法

MiRAGeNews数据集适用于多模态分类任务，特别是图像与文本联合分析。研究者可通过加载训练集和验证集进行模型训练与调优，随后利用五个测试集评估模型的泛化能力。数据集支持多种机器学习框架，用户可根据需求选择适合的工具进行数据处理与分析。通过该数据集，研究者能够深入探索多模态新闻检测的技术挑战，并开发出更具鲁棒性的检测模型。

背景与挑战

背景概述

MiRAGeNews数据集由研究团队于2023年发布，旨在应对人工智能生成内容（AIGC）在新闻领域中的广泛应用及其潜在风险。该数据集由纽约时报、BBC、CNN等知名新闻机构与Midjourney、DALL-E 3、SDXL等先进图像生成模型合作构建，包含15,000条真实或AI生成的多模态新闻数据（图像-文本对）。其核心研究问题在于如何有效检测和区分真实新闻与AI生成新闻，以应对虚假信息传播的挑战。该数据集为多模态分类任务提供了重要资源，推动了新闻真实性检测领域的研究进展。

当前挑战

MiRAGeNews数据集在解决新闻真实性检测问题时面临多重挑战。首先，AI生成内容的多样性和逼真度不断提升，使得区分真实与虚假新闻的难度显著增加。其次，数据集的构建过程中需要协调多个新闻机构和图像生成模型，确保数据的多样性和代表性，同时避免版权和隐私问题。此外，测试集的设计旨在评估模型的泛化能力，但跨域数据的差异性可能导致模型性能波动，增加了检测任务的复杂性。这些挑战不仅考验了数据集的构建质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在新闻真实性检测领域，mirage-news数据集被广泛应用于训练和评估多模态新闻检测模型。该数据集通过结合图像和文本信息，帮助研究者开发能够识别AI生成新闻的算法。其经典使用场景包括在实验室环境中对模型进行训练和验证，以及在真实新闻发布平台上进行测试，以确保模型在实际应用中的有效性。

实际应用

在实际应用中，mirage-news数据集被用于开发新闻真实性检测工具，帮助新闻机构和社交媒体平台识别和过滤AI生成的虚假新闻。这些工具能够有效提升新闻内容的可信度，减少虚假信息对公众的误导。此外，该数据集还被用于教育和培训，帮助新闻从业者提高对AI生成内容的识别能力。

衍生相关工作

基于mirage-news数据集，研究者们开发了多种多模态新闻检测模型，如基于深度学习的图像-文本联合分析模型。这些模型在多个国际学术会议上发表了相关论文，并获得了广泛关注。此外，该数据集还催生了一系列关于新闻真实性检测的开源工具和框架，进一步推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成