MegaFake

Name: MegaFake
Creator: 香港理工大学
Published: 2024-08-19 21:27:07
License: 暂无描述

arXiv2024-08-19 更新2024-08-28 收录

下载链接：

http://arxiv.org/abs/2408.11871v1

下载链接

链接失效反馈

官方服务：

资源简介：

MegaFake数据集由香港理工大学开发，是一个包含由大型语言模型生成的新闻数据的全面数据集，涵盖四种虚假新闻和两种合法新闻。该数据集基于GossipCop数据集构建，包含46,096条虚假新闻和17,871条合法新闻，是首个公开可用的大型机器生成虚假新闻数据集。MegaFake数据集的创建过程结合了社会心理学理论，通过一个新颖的自动化流水线生成，无需手动标注。该数据集主要用于支持未来在大型语言模型时代对虚假新闻检测和治理的研究。

The MegaFake dataset, developed by The Hong Kong Polytechnic University, is a comprehensive collection of news data generated by large language models (LLMs), encompassing four categories of fake news and two categories of legitimate news. Built upon the GossipCop dataset, it contains 46,096 fake news samples and 17,871 legitimate news samples, making it the first publicly available large-scale machine-generated fake news dataset. The development of the MegaFake dataset integrates social psychology theories and is generated through a novel automated pipeline without the need for manual annotation. This dataset is primarily designed to support future research on fake news detection and governance in the era of large language models.

提供机构：

香港理工大学

创建时间：

2024-08-19

搜集汇总

数据集介绍

构建方式

MegaFake数据集的构建基于一种名为LLM-Fake Theory的理论框架，该框架融合了大型语言模型（LLM）的先进技术和各种社会心理学理论。研究团队利用LLM自动生成了四种类型的虚假新闻和两种类型的真实新闻。为了确保数据质量，研究人员从GossipCop数据集中提取了新闻文章，并通过一系列预处理步骤，如去除缺少标题或内容的文章以及标准化文章长度，对数据进行清理。随后，他们使用GLM和ChatGLM3等LLM模型，根据LLM-Fake Theory中的提示生成内容。最终，MegaFake数据集包含了46,096个虚假新闻实例和17,871个真实新闻实例。

特点

MegaFake数据集的特点在于其理论驱动的生成方式，它不仅提供了大规模的虚假新闻数据，还涵盖了四种不同类型的虚假新闻，包括基于风格的虚假新闻、基于内容的虚假新闻、基于混合信息的虚假新闻和基于叙事的虚假新闻。此外，该数据集还包含了两种类型的真实新闻，即基于写作提升的新闻和基于新闻总结的新闻。这种多样化的数据类型使得MegaFake数据集成为研究LLM生成虚假新闻的宝贵资源。

使用方法

MegaFake数据集的使用方法包括对虚假新闻检测模型进行训练和评估。研究团队通过实验发现，自然语言理解（NLU）模型在虚假新闻检测任务上优于自然语言生成（NLG）模型。此外，他们还观察到，在未经微调的情况下，参数较少的LLM模型在区分真实新闻和虚假新闻方面表现更好。因此，研究人员建议在使用MegaFake数据集时，应优先考虑NLU模型，并根据实际情况选择合适的LLM模型规模。为了确保数据的安全性和伦理使用，研究人员还建议在申请使用MegaFake数据集时，必须明确其用途，并限制其仅用于学术和合法研究。

背景与挑战

背景概述

随着大型语言模型（LLMs）的兴起，在线内容创作经历了革命性的变革，使得生成高质量的虚假新闻变得更加容易。这种现象对数字环境的完整性和伦理标准构成了威胁。因此，理解LLMs生成虚假新闻背后的动机和机制至关重要。本研究从社会心理学的角度分析了虚假新闻的创建，并开发了一个全面的LLM-based理论框架，即LLM-Fake Theory。我们引入了一个新颖的流程，使用LLMs自动生成虚假新闻，从而消除了手动注释的需要。利用这一流程，我们创建了一个理论驱动的机器生成虚假新闻数据集，名为MegaFake，该数据集源自GossipCop数据集。我们进行了全面的分析来评估我们的MegaFake数据集。我们相信，我们的数据集和见解将为未来研究提供宝贵的贡献，这些研究专注于在LLMs时代检测和管理虚假新闻。

当前挑战

MegaFake数据集面临的挑战包括：1) 所解决的领域问题的挑战，即LLMs生成的虚假新闻的检测和治理；2) 构建过程中所遇到的挑战，例如确保数据集的多样性和避免数据偏差。为了应对这些挑战，研究人员采用了基于LLM-Fake Theory的理论框架，并使用GossipCop数据集作为基础，以创建一个包含四种类型的虚假新闻和两种类型的合法新闻的大规模数据集。此外，研究人员还引入了一个新颖的流程，使用LLMs自动生成虚假新闻，并进行了实验来评估数据集的有效性。

常用场景

经典使用场景

MegaFake数据集是一个基于大型语言模型生成的假新闻数据集，旨在帮助研究人员理解和检测LLM生成的假新闻。该数据集包含了四种类型的假新闻和两种类型的合法新闻，共计63867个实例。MegaFake数据集可以用于训练和评估假新闻检测模型，帮助研究人员开发更有效的假新闻检测方法。此外，该数据集还可以用于研究LLM生成假新闻的社会心理学机制，以及假新闻对公众的影响。

衍生相关工作

MegaFake数据集的创建促进了假新闻检测和相关领域的研究。该数据集的创建为研究人员提供了一个新的研究工具，可以帮助他们更好地理解和检测LLM生成的假新闻。此外，该数据集还可以用于研究LLM生成假新闻的社会心理学机制，以及假新闻对公众的影响。

数据集最近研究