F3_Dataset

github2023-12-03 更新2024-05-31 收录

下载链接：

https://github.com/mickeymst/F3

下载链接

链接失效反馈

官方服务：

资源简介：

F3_Dataset仓库旨在提供易于访问和理解的多样的数据集，特别关注GPT模型前后的数据集差异，以及不同来源和类型的数据。它支持机器学习任务，特别是针对新闻文章和社交媒体帖子中真假新闻的检测。

The F3_Dataset repository is designed to provide easily accessible and comprehensible diverse datasets, with a particular focus on the differences in datasets before and after GPT models, as well as data from various sources and types. It supports machine learning tasks, especially for detecting fake and real news in news articles and social media posts.

创建时间：

2023-06-24

原始信息汇总

F3_Dataset结构概览

结构分解

训练-测试分割
- pre_post_GPT: post-GPT
  - 数据源: F3
    - 文章类型: 新闻文章
      - 标签: 假 - 包含来自F3源的post-GPT假新闻文章。
      - 标签: 真 - 包含来自F3源的post-GPT真实新闻文章。
    - 文章类型: 社交媒体帖子
      - 标签: 假 - 包含来自F3源的post-GPT假社交媒体帖子。
      - 标签: 真 - 包含来自F3源的post-GPT真实社交媒体帖子。
- pre_post_GPT: pre-GPT
  - 数据源: CoAID
    - 结构与上述相同，适用于CoAID源。
  - 数据源: FakeNewsNet
    - 结构与上述相同，适用于FakeNewsNet源。
  - 数据源: F3
    - 结构与上述相同，适用于F3源的pre-GPT数据集。
完整清洁（PURIFY）数据集
- 包含经过全面清洁和净化处理的数据集，适用于需要高质量、清洁数据的高级分析和机器学习应用。

使用

该结构化仓库专为从事虚假信息检测和自然语言处理的研究人员和开发者设计。用户可以根据需要选择pre-或post-GPT数据，数据源，以及类型（新闻文章或社交媒体帖子）。假和真标签为监督学习任务提供了清晰的区分。

搜集汇总

数据集介绍

构建方式

F3_Dataset的构建采用了基于GPT-3.5-turbo的生成模型，通过改写和扰动式的前缀提示生成真实与虚假的LLM生成内容。具体而言，研究者利用改写提示生成真实内容，而通过扰动提示生成虚假内容。此外，数据集还结合了零样本上下文语义推理技术，使用填空式提示来区分真实与虚假的新闻文章和社交媒体帖子。这种双重生成与检测策略使得数据集在分布内和分布外数据上均表现出色。

使用方法

F3_Dataset的使用方法主要通过Jupyter Notebook实现，用户可以通过Google Colab在线运行代码。数据集的使用分为生成、检测和净化三个主要步骤。生成步骤利用GPT-3.5-turbo生成合成文本，检测步骤通过上下文学习和语义推理进行二分类任务，净化步骤则通过PURIFY框架去除生成内容中的不忠实部分。用户可以通过克隆仓库、安装依赖并按照Notebook中的指示进行操作，灵活配置生成和检测任务，满足不同研究需求。

背景与挑战

背景概述

F3_Dataset的创建源于大型语言模型（LLMs）在生成大规模有害和误导性内容方面的潜在风险。为了应对这一新兴挑战，研究团队提出了一种名为“以火攻火”（F3）的策略，利用现代LLMs的生成和推理能力来对抗人类编写和LLM生成的虚假信息。该数据集由GPT-3.5-turbo生成，通过基于释义和扰动的提示技术，合成了真实和欺骗性的内容。研究团队进一步应用零样本上下文语义推理技术，区分真实与虚假的新闻文章和社交媒体帖子。F3_Dataset的构建标志着在虚假信息检测领域的重要进展，尤其是在LLM生成内容的识别方面，为相关研究提供了宝贵的数据资源。

当前挑战

F3_Dataset在构建和应用过程中面临多重挑战。首先，虚假信息的多样性和复杂性使得区分真实与虚假内容变得极为困难，尤其是在LLM生成的内容中，欺骗性信息往往具有高度的真实感。其次，数据集的构建依赖于复杂的提示工程和语义推理技术，这对模型的零样本推理能力提出了极高的要求。此外，数据集的多样性和规模也对模型的泛化能力构成了挑战，尤其是在面对分布外数据时，模型的性能可能显著下降。最后，数据集的清洗和净化过程需要确保生成内容的逻辑一致性、事实准确性和语义连贯性，这对自动化和统计技术的结合提出了更高的要求。

常用场景

经典使用场景

F3_Dataset在虚假信息检测领域具有广泛的应用，尤其是在区分由大型语言模型（LLMs）生成的虚假新闻和真实新闻方面。该数据集通过GPT-3.5-turbo生成的真实和虚假内容，结合零样本上下文语义推理技术，为研究人员提供了一个强大的工具，用于训练和测试检测模型。其结构化的数据集划分（如训练集和测试集）使得模型能够在不同分布的数据上进行泛化测试，从而提升检测的鲁棒性。

解决学术问题

F3_Dataset解决了虚假信息检测中的关键学术问题，特别是在LLMs生成的虚假内容日益增多的背景下。通过生成和检测双重策略，该数据集不仅帮助研究人员理解LLMs生成虚假信息的机制，还提供了一种基于零样本推理的检测方法，显著提升了检测模型的准确性和泛化能力。实验表明，GPT-3.5-turbo在零样本设置下的表现优于传统的定制化检测模型，为解决虚假信息传播提供了新的思路。

实际应用

在实际应用中，F3_Dataset被广泛用于社交媒体平台和新闻机构的虚假信息检测系统。通过该数据集训练的模型能够有效识别由LLMs生成的虚假新闻和社交媒体帖子，帮助平台及时过滤和标记虚假内容，减少虚假信息对公众的影响。此外，该数据集还可用于开发自动化内容审核工具，提升内容审核的效率和准确性。

数据集最近研究