Fake.Br Corpus

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/roneysco/Fake.br-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Fake.Br Corpus是一个包含巴西葡萄牙语真实和虚假新闻的数据集，其中包含完整文本和大小归一化文本，以及预处理文本。数据集旨在支持假新闻检测和相关研究。

The Fake.Br Corpus is a dataset comprising authentic and fabricated news articles in Brazilian Portuguese. It includes full texts, size-normalized texts, and preprocessed texts. The dataset is designed to facilitate research and development in the detection of fake news and related studies.

创建时间：

2018-08-23

原始信息汇总

Fake.Br Corpus 概述

数据集结构

full_texts 文件夹：包含完整的文本数据，分为以下子文件夹：
- fake 文件夹：存放收集的假新闻文本。
- true 文件夹：存放收集的真实新闻文本。
- fake-meta-information 文件夹：存放假新闻的元数据信息。
- true-meta-information 文件夹：存放真实新闻的元数据信息。
元数据信息文件格式如下（每行对应一项信息）：
- 作者
- 链接
- 类别
- 发布日期
- 令牌数量
- 无标点单词数量
- 类型数量
- 新闻内链接数量
- 大写单词数量
- 动词数量
- 虚拟和命令式动词数量
- 名词数量
- 形容词数量
- 副词数量
- 情态动词（主要是辅助动词）数量
- 单数第一和第二人称代词数量
- 复数第一人称代词数量
- 代词总数
- 因果性
- 字符数量
- 平均句子长度
- 平均单词长度
- 拼写错误的新闻百分比
- 情感性
- 多样性
size_normalized_texts 文件夹：包含截断后的文本数据，确保每对假新闻和真实新闻文本长度一致，用于避免机器学习实验中的偏差。
preprocessed 文件夹：包含一个CSV文件，包含新闻标签和预处理后的新闻文本，如移除葡萄牙语停用词、重音和变音符号。

引用信息

若使用此数据集，请引用以下文献：

Monteiro, R.A., Santos, R.L.S., Pardo, T.A.S., de Almeida, T.A., Ruiz, E.E.S., Vale, O.A. (2018) Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results. In: Villavicencio A. et al. (eds) Computational Processing of the Portuguese Language. PROPOR 2018. Lecture Notes in Computer Science, vol 11122. Springer, Cham.
Silva, Renato M., Santos R.L.S, Almeida T.A, and Pardo T.A.S. (2020) "Towards Automatically Filtering Fake News in Portuguese." Expert Systems with Applications, vol 146, p. 113199.

搜集汇总

数据集介绍

构建方式

Fake.Br Corpus的构建方式体现了对真实与虚假新闻的细致分类与处理。该数据集从多个新闻网站收集了完整的文本，并将其分为两个主要类别：真实新闻和虚假新闻。每个类别不仅包含新闻文本，还附带了详细的元数据信息，如作者、发布日期、文本长度、词汇多样性等。此外，数据集还提供了文本的预处理版本，去除了停用词、重音符号等，以适应不同的自然语言处理任务。为了减少机器学习实验中的偏差，数据集还提供了文本长度归一化的版本，确保每对真实与虚假新闻的文本长度一致。

特点

Fake.Br Corpus的主要特点在于其多层次的文本处理与丰富的元数据信息。首先，数据集不仅包含原始新闻文本，还提供了详细的元数据，涵盖了从作者信息到文本统计特征的多个维度，这为研究者提供了深入分析新闻内容的机会。其次，数据集提供了两种文本版本：完整文本和长度归一化的文本，以适应不同实验需求。此外，预处理版本的文本去除了葡萄牙语中的停用词和重音符号，进一步简化了文本处理流程。这些特点使得该数据集在虚假新闻检测和自然语言处理领域具有广泛的应用潜力。

使用方法

使用Fake.Br Corpus时，研究者可以根据具体需求选择不同版本的文本数据。对于需要完整文本分析的任务，可以选择``full_texts``文件夹中的数据；而对于需要避免文本长度偏差的实验，可以选择``size_normalized_texts``文件夹中的数据。此外，``preprocessed``文件夹中的CSV文件提供了去除了停用词和重音符号的预处理文本，适合直接用于机器学习模型的训练。在使用数据集时，研究者应遵循引用规范，引用相关的研究论文和项目网站，以确保学术诚信。

背景与挑战

背景概述

Fake.Br Corpus是由巴西的研究团队创建的一个专门用于研究葡萄牙语假新闻的数据集。该数据集的核心研究问题是如何自动检测和过滤葡萄牙语中的假新闻，这对于应对信息泛滥和维护信息真实性具有重要意义。数据集的创建时间为2018年，主要研究人员包括Rafael A. Monteiro、Roney L. S. Santos等，他们通过从多个网站收集真实和虚假新闻，并对其进行详细的文本分析和标注，为假新闻检测提供了丰富的资源。该数据集的发布不仅推动了葡萄牙语假新闻检测的研究，也为全球范围内的假新闻研究提供了宝贵的参考。

当前挑战

Fake.Br Corpus在构建过程中面临了多个挑战。首先，收集和区分真实与虚假新闻的来源是一个复杂的过程，需要确保数据的准确性和代表性。其次，对新闻文本进行详细的元数据标注，如作者、发布日期、词汇统计等，增加了数据处理的复杂性。此外，为了避免机器学习实验中的偏差，数据集还提供了文本长度归一化的版本，这进一步增加了数据预处理的难度。最后，如何有效利用这些丰富的元数据和文本特征进行假新闻的自动检测，仍然是一个具有挑战性的研究问题。

常用场景

经典使用场景

Fake.Br Corpus 数据集的经典使用场景主要集中在假新闻的自动检测与分类任务上。通过提供真实新闻与假新闻的完整文本及其对应的元数据信息，研究者能够构建和训练机器学习模型，以区分新闻的真实性。该数据集的结构化设计使得研究者可以轻松地进行文本分析、特征提取以及模型评估，从而推动假新闻检测技术的发展。

解决学术问题

Fake.Br Corpus 数据集解决了假新闻检测领域中的关键学术问题，包括如何有效区分真实新闻与假新闻、如何提取有用的文本特征以提高分类模型的性能，以及如何处理不同语言和文化背景下的假新闻检测问题。该数据集的发布为研究者提供了一个标准化的基准，促进了相关算法的比较与改进，对提升假新闻检测的准确性和可靠性具有重要意义。

衍生相关工作

基于 Fake.Br Corpus 数据集，研究者们开展了一系列相关工作，包括改进假新闻检测算法、探索多模态信息融合技术以及开发跨语言假新闻检测模型。这些工作不仅提升了假新闻检测的准确性，还推动了自然语言处理和机器学习领域的发展。此外，该数据集还激发了其他语言假新闻数据集的创建，形成了全球范围内的假新闻研究网络，进一步促进了该领域的学术交流与合作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集