five

BUPT-Reasoning-Lab/AEGIS

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/BUPT-Reasoning-Lab/AEGIS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为AEGIS,是一个用于评估AI生成的学术图像取证分析的综合基准。数据集包含多种特征,如图像、ID、图像名称、图像路径、任务、真实标签、类别、子类型、是否包含文本、伪造策略和生成模型等。适用于图像分类任务,规模在10K到100K之间。

This repository contains the data of the paper [AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Generated Academic Images].
提供机构:
BUPT-Reasoning-Lab
搜集汇总
数据集介绍
main_image_url
构建方式
AEGIS数据集旨在为学术场景下AI生成图像的取证分析提供全面基准。其构建基于对多种生成模型与伪造策略的系统性整合,覆盖从图像文件名称、路径、类别、子类型到是否包含文本、生成模型等元数据的多维标注。数据来源涵盖真实学术图像与人工智能生成的伪造图像,并通过细粒度分类确保每张图像关联明确的取证任务标签与真实标签,形成结构化、可复用的评估框架。
使用方法
数据集以HuggingFace数据集格式发布,使用者可直接通过`datasets.load_dataset`加载默认配置,获取包含训练集的图像与元数据。每张图像以`file_name`字段存储为图像类型,其余字段如`ground_truth`、`category`、`forgery_strategy`等可直接用于分类任务标签。适用于图像分类、伪造检测、生成模型溯源等任务的训练与评估,亦支持基于不同特征的子集划分以进行针对性实验。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,AI生成图像在学术研究中的应用日益广泛,然而其真实性鉴别成为一项严峻挑战。在此背景下,AEGIS数据集于2024年由相关研究机构创建,旨在系统性评估AI生成学术图像的取证分析能力。该数据集聚焦于核心研究问题:如何构建一个全面、公正的基准,以衡量图像取证算法在识别AI生成学术图像方面的性能。AEGIS的发布为图像取证、多模态学习和学术诚信领域提供了关键评估标准,推动了对抗伪造学术图像的技术进步,对维护学术出版的真实性和严谨性具有深远影响。
当前挑战
AEGIS数据集面临多重挑战。在领域问题层面,AI生成图像日益逼真,传统取证方法难以有效区分伪造与真实图像,亟需开发能捕捉细微生成痕迹的新判别技术。构建过程中,数据集需涵盖多种生成模型(如GANs、扩散模型等)和伪造策略,确保样本多样性与代表性,这要求大规模收集与标注,增加了标注一致性和质量控制难度。此外,学术图像常含文字、图表等复杂元素,伪造策略可能涉及局部篡改,进一步提升了特征提取与分类的挑战性。
常用场景
经典使用场景
在图像取证与多模态人工智能交叉领域,AEGIS数据集为评估AI生成学术图像的检测能力奠定了基准。其经典使用场景聚焦于区分真实学术图像与由生成式模型(如扩散模型、GAN等)合成的图像。研究人员借助该数据集训练和测试图像分类模型,重点针对学术场景中的伪造策略(如图表篡改、显微图像伪造)进行判别,从而推动生成内容检测技术在科研诚信审查中的标准化应用。
解决学术问题
AEGIS数据集直面学术界日益严峻的AI生成图像滥用问题,系统性地填补了现有伪造检测基准的空白。它解决了如何构建包含多生成模型、多伪造策略的标准化评估框架这一关键难题,为比较不同检测算法的鲁棒性和泛化能力提供了统一度量。该数据集的发布促进了学术图像真伪鉴别研究的可复现性与跨方法对比,对维护学术发表过程的真实性具有深远影响。
实际应用
实际应用中,AEGIS数据集赋能了学术出版领域的自动化图像验真工具。出版机构、会议审稿系统及预印本平台可基于该数据集训练部署智能审核模块,实时筛查投稿中可能存在的AI生成图像,尤其适用于识别伪造的显微照片、地质剖面或数据图表。此外,该数据集还可辅助科研基金评审机构验证研究结果的图像真实性,降低学术不端行为对科研公信力的侵蚀。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,AI生成图像在学术领域中的滥用已成为备受关注的伦理与诚信危机。AEGIS数据集应运而生,聚焦于学术图像伪造的全面检测与溯源,为学界提供了首个面向AI生成学术图像的综合性基准。当前前沿研究正沿着两个核心方向深入:其一,基于多模态特征融合的伪造检测算法,通过整合图像视觉特征与文本元数据,提升对细微篡改痕迹的识别精度;其二,面向不同类型生成模型(如扩散模型与GAN)的溯源分类模型,力求在多样化伪造策略下实现可解释的归因分析。该数据集的发布不仅推动了数字图像取证技术从通用场景向专业学术场景的拓展,更呼应了2023年以来多起由AI伪造图表引发学术撤稿事件所激发的对科研诚信系统的加固需求,为建立自动化、标准化的学术图像审核机制奠定了关键数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作