FineFake

Name: FineFake
Creator: 北京航空航天大学、北京邮电大学
License: 暂无描述

github2024-05-31 收录

下载链接：

https://github.com/Accuser907/FineFake

下载链接

链接失效反馈

官方服务：

资源简介：

FineFake是由北京航空航天大学与中国北京邮电大学联合创建的一个用于细粒度多领域假新闻检测的知识增强型数据集。该数据集包含了16,909个数据样本，覆盖了6个语义主题和8个不同的平台。每个新闻样本都富含多模态内容，如文本、图片和潜在的社交环境信息，并且通过半手动方式验证了常见的知识。此外，FineFake数据集的注释不仅仅局限于传统的二元真假标签，而是提供了更细粒度的分类，这有助于更精确地揭示假新闻背后的策略。FineFake旨在解决假新闻检测中的领域适应性问题，通过提供跨主题和平台的数据，促进研究者开发出能够准确识别和适应不同新闻领域的检测模型。

FineFake is a knowledge-enhanced dataset for fine-grained multi-domain fake news detection, jointly developed by Beihang University and Beijing University of Posts and Telecommunications, both based in Beijing, China. This dataset includes 16,909 data samples, covering 6 semantic topics and 8 distinct platforms. Each news sample contains rich multimodal content, such as text, images and potential social context information, and common background knowledge has been validated via a semi-manual approach. Furthermore, the annotations of the FineFake dataset are not limited to traditional binary true/false labels, but provide finer-grained classification categories, which helps to more accurately uncover the strategies behind fake news. FineFake aims to address the domain adaptation problem in fake news detection. By providing data across diverse topics and platforms, it assists researchers in developing detection models that can accurately identify and adapt to different news domains.

提供机构：

北京航空航天大学、北京邮电大学

原始信息汇总

数据集概述

数据集名称

FineFake：知识增强的细粒度多领域假新闻检测数据集。

数据集内容

包含文本数据、元数据、图像数据和知识数据。
数据集分为六个主题和八个平台：
- 主题：政治、娱乐、商业、健康、社会、冲突。
- 平台：Snopes, Twitter, Reddit, CNN, Apnews, Cdc.gov, Nytimes, Washingtonpos。

数据集结构

数据存储为pickle文件，包含13个列：
- 文本、图像路径、实体ID、主题、标签、细粒度标签、知识嵌入、描述、关系、平台、作者、日期、评论。

标签说明

二元标签：
- "0"代表假新闻，"1"代表真实新闻。
细粒度标签：
- 0: 真实
- 1: 文本-图像不一致
- 2: 内容-知识不一致
- 3: 基于文本的假新闻
- 4: 基于图像的假新闻
- 5: 其他

数据集下载

数据集及图像可通过此链接下载。

搜集汇总

数据集介绍

构建方式

FineFake数据集的构建基于多源新闻数据，涵盖了六个主要领域：政治、娱乐、商业、健康、社会和冲突。数据集整合了来自八个不同平台的信息，包括Snopes、Twitter、Reddit、CNN、Apnews、Cdc.gov、Nytimes和Washingtonpos。构建过程中，不仅收集了新闻文本和图像数据，还嵌入了知识图谱的实体信息，以增强数据集的知识丰富性。此外，数据集还包含了详细的元数据，如新闻来源、作者和发布日期，以及用户评论，从而为细粒度的假新闻检测提供了全面的数据支持。

特点

FineFake数据集的显著特点在于其细粒度标签和知识嵌入。数据集不仅提供了二元标签（假新闻和真实新闻），还进一步细分为六个细粒度标签，包括文本与图像不一致、内容与知识不一致、基于文本的假新闻、基于图像的假新闻等。此外，数据集中的每条新闻都关联了知识图谱的嵌入信息，这使得模型能够更好地理解新闻内容背后的知识背景，从而提高假新闻检测的准确性和深度。

使用方法

使用FineFake数据集时，用户可以通过提供的代码示例轻松加载数据。数据以pickle文件格式存储，包含13个属性列，涵盖新闻文本、图像路径、实体ID、主题、标签等信息。用户需确保安装了pickle和pandas库，并按照示例代码加载数据。此外，数据集的下载链接和详细的使用指南可在GitHub页面找到。在使用过程中，用户应遵守数据集的使用准则，确保研究活动的公平性和隐私保护，避免任何可能的恶意用途。

背景与挑战

背景概述

FineFake数据集是由一支专注于假新闻检测的研究团队创建的，旨在通过细粒度的多领域知识丰富数据集，提升假新闻检测的准确性和可靠性。该数据集的构建时间可追溯至2024年，主要研究人员和机构通过整合来自多个平台（如Snopes、Twitter、Reddit等）的新闻数据，涵盖了政治、娱乐、商业、健康、社会和冲突等六个主题。FineFake不仅提供了文本数据，还包括图像数据和知识嵌入，以支持多模态假新闻检测。该数据集的核心研究问题是如何在多领域和多模态数据中准确识别和分类假新闻，其对假新闻检测领域的贡献在于提供了更为精细和全面的分析工具。

当前挑战

FineFake数据集在构建过程中面临多重挑战。首先，整合来自不同平台和主题的数据，确保数据的一致性和质量是一个复杂的过程。其次，细粒度标签的定义和应用，如文本与图像的不一致性、内容与知识的不一致性等，需要精确的算法和模型支持。此外，数据集的隐私保护和匿名化处理也是一大挑战，确保在利用公共数据的同时，不侵犯个人隐私。最后，如何有效利用知识嵌入来增强假新闻检测的准确性，仍需进一步研究和优化。

常用场景

经典使用场景

在信息泛滥的时代背景下，FineFake数据集以其精细化的多领域假新闻检测能力，成为研究者和开发者的重要工具。该数据集通过整合文本、图像、元数据和知识嵌入，能够有效区分不同类型的假新闻，如文本与图像不一致、内容与知识不一致等。其经典使用场景包括构建和训练假新闻检测模型，通过多模态数据分析提升检测精度，以及在多个新闻平台上进行实时假新闻识别。

衍生相关工作

FineFake数据集的发布催生了一系列相关研究和工作。研究者们基于该数据集开发了多种假新闻检测模型，如基于深度学习的分类器和多模态融合算法，显著提升了检测性能。此外，FineFake还激发了对假新闻生成机制的深入研究，推动了对抗生成网络（GAN）在假新闻检测中的应用。在学术界，FineFake已成为假新闻检测领域的基准数据集，促进了该领域的快速发展和创新。

数据集最近研究