AiGen-FoodReview
收藏arXiv2024-01-17 更新2024-06-21 收录
下载链接:
https://zenodo.org/records/10511456
下载链接
链接失效反馈官方服务:
资源简介:
AiGen-FoodReview是一个包含20,144对餐厅评论和图像的多模态数据集,由新星商学院与经济学学院的亚历山德罗·甘巴蒂和韩启伟创建。该数据集分为真实和机器生成两部分,旨在通过分析文本和图像的复杂性来识别虚假评论。数据集的创建过程中,使用了GPT-4-Turbo和DALL-E-2模型来生成评论和图像,这些模型能够以低成本生成高质量的内容。AiGen-FoodReview的应用领域主要集中在检测和分析在线平台上的虚假评论,帮助消费者做出更明智的决策,并维护在线市场的诚信。
AiGen-FoodReview is a multimodal dataset containing 20,144 pairs of restaurant reviews and corresponding images, created by Alessandro Gambati and Han Qiwei from the School of Economics, New Star Business School. The dataset is divided into two parts: authentic and machine-generated content, with the core objective of identifying fraudulent reviews by analyzing the complexity of both textual and visual content. During the dataset's development process, GPT-4-Turbo and DALL-E 2 models were employed to generate the reviews and images, which can produce high-quality content at a low cost. The primary application areas of AiGen-FoodReview focus on detecting and analyzing fake reviews on online platforms, helping consumers make more informed purchasing decisions and upholding the integrity of online marketplaces.
提供机构:
新星商学院与经济学学院
创建时间:
2024-01-17
搜集汇总
数据集介绍

构建方式
在社交媒体虚假内容检测领域,AiGen-FoodReview数据集的构建体现了严谨的工程化流程。研究团队以纽约市SafeGraph餐厅移动数据为基础,从Yelp平台爬取了447,377条英文评论,通过筛选精英用户评论并匹配至少一张配图,获得了21,143对真实评论-图像数据。随后采用分层抽样策略,将其中11,000条作为生成样本,运用GPT-4-Turbo模型根据餐厅名称和原始评论生成合成文本,再通过DALL-E-2模型将合成文本转化为256×256像素图像。最终通过严格的内容审核与配对验证,形成了包含20,144对数据的平衡数据集,其中10,143对为真实内容,10,001对为机器生成内容。
特点
该数据集的核心特征体现在多模态架构与精细化标注体系。作为首个专注于餐厅评论场景的机器生成多模态数据集,其同时包含文本与图像两种模态数据,且每对数据均经过严格配对验证。在内容特征层面,生成文本展现出更高的语言复杂度,其自动化可读性指数达到12.20±1.90,显著高于真实文本的6.84±3.00;生成图像则呈现更鲜明的视觉特征,平均亮度达144.51±33.73,饱和度达117.35±42.45,均高于真实图像。数据集还提供了丰富的元数据标注,包括餐厅菜系分类、价格等级、用户评级等结构化信息,为多维度分析提供了坚实基础。
使用方法
该数据集主要应用于多模态虚假内容检测算法的开发与评估。研究者可采用端到端的多模态模型架构,如FLAVA等融合模型,同时处理文本与图像输入以实现联合特征提取。在特征工程层面,可基于数据集提供的可读性指数、困惑度等文本特征,结合亮度、饱和度等摄影理论特征构建手工特征组合。实验设计应遵循论文中的标准划分方案,将数据按60%/20%/20%比例划分为训练集、验证集和测试集,并采用准确率、F1分数等指标进行模型性能评估。此外,数据集还可用于生成内容与真实内容的对比语言学分析和视觉特征研究。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,大型语言模型与多模态模型在内容生成领域展现出前所未有的潜力,同时也对在线用户生成内容的可信度构成了严峻挑战。在此背景下,Alessandro Gambetti与Qiwei Han于2024年1月发布了AiGen-FoodReview数据集,该数据集聚焦于餐厅评论这一特定领域,旨在应对机器生成虚假内容对社交媒体平台诚信的威胁。该数据集由诺瓦商业与经济学院的研究团队构建,核心研究问题在于探索如何有效检测由先进生成模型如GPT-4-Turbo和DALL-E-2合成的多模态虚假评论与图像,从而维护在线评论生态系统的可靠性,并为相关检测算法的开发与评估提供标准化基准。
当前挑战
AiGen-FoodReview数据集致力于解决多模态虚假内容检测这一新兴领域的关键问题,其核心挑战在于如何准确区分机器生成的餐厅评论与图像和真实用户内容。具体而言,构建过程中面临多重挑战:首先,在数据生成阶段,需确保合成内容在语言复杂度和视觉特征上具有足够的真实性,以模拟实际攻击场景;其次,由于生成模型的内容审核策略,部分提示因违反政策而无法生成图像,导致数据损失与平衡性问题;此外,数据集的构建依赖于单一地理区域(纽约市)和特定生成模型,可能限制了其泛化能力,难以全面反映不同文化背景或多样化生成技术产生的虚假内容。这些挑战共同凸显了开发鲁棒且可扩展检测方法的必要性。
常用场景
经典使用场景
在社交媒体可信度与虚假信息检测的研究领域,AiGen-FoodReview数据集为探索多模态虚假评论识别提供了关键基准。该数据集通过整合由GPT-4-Turbo生成的文本评论与DALL-E-2生成的对应图像,构建了一个包含两万余对评论-图像样本的二元分类资源。其最经典的应用场景在于训练和评估单模态与多模态机器学习模型,以区分真实用户生成内容与机器生成的伪造内容。研究者利用该数据集,能够系统性地分析生成式人工智能在餐饮评论领域所制造内容的特征,并开发高效的检测算法,例如基于FLAVA架构的多模态模型在此数据集上实现了超过99%的检测准确率。
解决学术问题
AiGen-FoodReview数据集主要针对虚假在线内容检测中的核心学术挑战。它为解决生成式人工智能,特别是大型语言模型和扩散模型,所催生的新型、低成本、高逼真度虚假内容泛滥问题提供了实证基础。该数据集使得研究者能够定量分析机器生成内容在语言复杂性、可读性、图像亮度、饱和度等手工特征上与真实内容的差异,从而深化对合成内容内在模式的理解。其意义在于推动了检测方法从依赖传统文本分析向融合视觉与文本线索的多模态范式演进,为维护在线评论生态的完整性与可信度奠定了数据与方法论基础。
衍生相关工作
围绕AiGen-FoodReview数据集,已衍生出一系列专注于多模态虚假内容检测的经典研究工作。论文本身展示了基于BERT、GPTNeo的单模态文本检测器,以及基于ViT、ResNet的单模态图像检测器的优化与性能对比。更重要的是,它推动了如CLIP、FLAVA等预训练多模态模型在该领域的适配与微调,证明了融合文本与视觉信息对于提升检测性能的有效性。同时,基于手工特征(如可读性指数、摄影美学评分)的逻辑回归与随机森林模型也展现了与深度学习模型相媲美的性能,为追求可解释性与计算效率的应用场景提供了替代方案,后续研究可在此基础上探索更轻量或更泛化的检测架构。
以上内容由遇见数据集搜集并总结生成



