Amazon-Llama3, Amazon-Qwen2, Amazon-Qwen-DSR1

Name: Amazon-Llama3, Amazon-Qwen2, Amazon-Qwen-DSR1
Creator: 清华大学
Published: 2025-10-02 16:42:35
License: 暂无描述

arXiv2025-10-02 更新2025-10-04 收录

下载链接：

https://github.com/meta-llama/llama3

下载链接

链接失效反馈

官方服务：

资源简介：

论文中构建了三个由大型语言模型生成的垃圾评论数据集，每个数据集包含由不同LLM生成的2500条垃圾评论。这些数据集用于研究如何检测LLM生成的垃圾评论，并评估了这些评论的欺骗性和人类相似度。数据集通过模拟欺诈者在亚马逊平台上发布垃圾评论的过程来构建，并使用GPT-4.1模型评估了评论的质量。这些数据集有助于开发更准确的垃圾评论检测方法，以应对由LLM生成的高级垃圾评论带来的挑战。

This paper constructs three spam review datasets generated by large language models (LLMs). Each dataset contains 2500 spam reviews produced by distinct LLMs. These datasets are utilized for researching the detection of LLM-generated spam reviews, and to evaluate the deceptiveness and human-likeness of such reviews. The datasets are built by simulating the process of fraudsters posting spam reviews on the Amazon marketplace, and the quality of the generated reviews is assessed using the GPT-4.1 model. These datasets facilitate the development of more accurate spam review detection methods to address the challenges posed by advanced LLM-generated spam reviews.

提供机构：

清华大学

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

在电子商务平台虚假评论检测研究领域，Amazon系列数据集通过模拟现实世界中欺诈者利用大语言模型生成虚假评论的完整流程构建。研究团队基于亚马逊真实商品元数据与用户评论，向三个不同的大语言模型输入产品名称、官方描述及真实参考评论，并指定生成具有特定情感倾向与多样性的文本要求，最终通过受控账户在真实评论环境中发布这些生成内容，形成高度拟真的合成数据集。

特点

该数据集的核心特征在于其高度仿真的对抗性文本生成机制，通过GPT-4.1自动评估证实，生成评论在说服力、细节丰富度与影响力维度均超越人类撰写内容。数据集同时保留了原始亚马逊评论图的完整拓扑结构，包含用户-产品-时间等多维关联关系，且通过控制每个欺诈账户仅发布两条评论的策略，有效模拟了现实场景中难以察觉的协同作弊行为。

使用方法

研究者可将该数据集作为基准测试平台，用于验证图神经网络与语言模型结合的检测算法效能。具体操作时需先构建包含同用户、同产品评分及时序关联的异质图结构，继而采用预训练语言模型提取评论文本嵌入特征，最后通过图神经网络聚合语义与行为模式信号。实验设置建议采用1%标注数据的弱监督学习范式，以贴近实际应用中的标注成本约束。

背景与挑战

背景概述

随着大型语言模型技术的迅猛发展，网络虚假评论的生成能力呈现出前所未有的逼真度与规模化趋势。2025年，清华大学与SUPCON等机构联合构建了Amazon-Llama3、Amazon-Qwen2和Amazon-Qwen-DSR1三大数据集，旨在应对LLM生成的垃圾评论对电商平台信誉体系造成的威胁。该研究聚焦于通过产品元数据与真实评论引导LLM生成高度仿真的虚假内容，并利用GPT-4.1评估证实其说服力超越人类撰写水平。这一工作不仅填补了该领域公开数据集的空白，更推动了语义分析与图神经网络融合的检测技术发展。

当前挑战

在解决LLM生成垃圾评论的领域问题中，核心挑战在于区分高度拟人化的生成内容与真实用户行为模式。具体表现为生成文本在情感表达、细节丰富度及逻辑连贯性方面与真实评论难以辨识，且不同LLM模型生成的文本具有差异化规避检测的特性。在数据集构建过程中，需模拟攻击者通过受控账户发布协同评论的完整链路，同时确保生成内容在遵循输出规范的同时保持语言多样性，这对数据标注一致性与行为模式真实性提出了极高要求。

常用场景

经典使用场景

在电子商务安全领域，Amazon-Llama3等数据集为检测大语言模型生成的虚假评论提供了关键实验平台。这些数据集通过模拟真实欺诈场景，将商品元数据、真实参考评论与特定输出要求输入不同LLM，生成具有高度欺骗性的虚假评论，为研究社区构建了评估检测模型性能的标准化基准。

衍生相关工作

该数据集催生了多项创新性研究，如FraudSquad等混合检测框架通过融合预训练语言模型嵌入与门控图变换器，在保持轻量级架构的同时实现高精度检测。相关成果进一步拓展至社交网络虚假信息检测、问答平台内容审核等领域，形成了跨平台反欺诈技术研究的新范式。

数据集最近研究